Anda di halaman 1dari 36

Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago.

2006 43
ProposIa de Anllse de IIens das Provas
do Saeb sob a PerspecIlva
Pedagglca e a PslcomIrlca
MARGARlDA M. M. RODRlGUES
Consultora Externa da Diretoria de Avaliao da Educao Bsica
DAEB/Inep/MEC
margaridarodrigues@uol.com.br
Resumo
O presente artigo resultante de uma pesquisa que teve por objetivo analisar os itens das
provas de Matemtica 8 srie , do Sistema Nacional de Avaliao da Educao Bsica
(Saeb), dos anos de 1997 e 1999, considerando-se os seus aspectos qualitativos e
quantitativos. Os aspectos qualitativos foram analisados por meio da anlise da validade de
contedo e dos procedimentos efetivos da elaborao dos itens. Os aspectos quantitativos
foram analisados, considerando-se as propriedades estatsticas, as quais incluram
procedimentos de anlise da Teoria Clssica dos Testes (TCT) e da Teoria de Resposta ao
Item (TRI). As anlises realizadas mostraram que as avaliaes de desempenho,
principalmente as de larga escala, devem levar em conta os aspectos psicomtricos e
pedaggicos dos itens de forma integrada, sem privilgio de nenhuma delas. Dessa forma,
constata-se que h uma maior compreenso dos resultados dessas avaliaes, os quais
podero reverter em polticas mais adequadas de interveno na busca da melhoria da
qualidade da educao, propsito final do Saeb.
Palavras-chave: Psicometria, Validade de contedo, Teoria Clssica dos Testes (TCT),
Teoria de Resposta ao Item (TRI).
Resumen
El presente artculo result de una investigacin que tuvo como objetivo analizar los tems
de las pruebas de Matemtica de la 8 srie (coresponde al alumno padrn de 14 aos), del
Sistema Nacional de Evaluacin de la Educacin Bsica (Saeb), de 1997 y 1999. Fueron
considerados tanto los aspectos cualitativos como los cuantitativos de la evaluacin. Los
aspectos cualitativos fueron analizados por medio del anlisis de la validez de contenido y
de los procedimientos efectivos de la elaboracin de los tems. Los aspectos cuantitativos
fueron analizados en trminos de las propiedades psicomtricas, incluyendo procedimientos
de anlisis de la Teora Clsica de los Tests (TCT) y de la Teora de Respuesta al tem (TRI).
Los anlisis mostraron que las evaluaciones de desempeo, principalmente las de larga
escala, deben llevar en cuenta los aspectos psicomtricos y pedaggicos de los tems.
Cuando estos anlisis son hechos en forma integral, sin privilegiar a ninguno de ellos, se
observa que hay una mejor comprensin del proceso enseanza-aprendizaje y los resultados
pueden convertirse en polticas pblicas de intervencin ms adecuadas y que buscan
mejorar la calidad de la educacin, propsito final del Saeb.
Palabras-clave: Psicometria, Validez de contenido, Teora Clsica de los Testes (TCT), Teora
de Respuesta al tem (TRI).
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 44
Abstract
This article is the result of a study that aimed at analyzing the items of 8
th
grade
mathematics tests from the National Basic Education Evaluation System (Saeb), between
1997 and 1999, considering both their qualitative and quantitative aspects. The qualitative
aspects were analyzed using content validity analysis and effective item elaboration
procedures. The quantitative aspects were analyzed considering statistical properties,
including Classical Test Theory (CTT) and Item Response Theory (IRT) analysis procedures.
The analyses revealed that performance evaluations, mainly wide-scale ones, should take
both psychometric and pedagogical aspects of the items into consideration. When these
analyses are carried out in an integrated way, without privileging either one of them, a
greater comprehension of the teaching-learning process is achieved and the results can be
converted into more adequate intervention policies to improve the quality of education,
SAEBs ultimate purpose.
Key words: psychometrics, content validity, Classical Test Theory (CTT), Item Response
Theory (IRT).
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 45
1 INTRODUO
A concepo de avaliao educacional apresenta um carter
multifacetado com uma extensa bibliografia a respeito do tema. A avaliao
pode ser contemplada de vrias formas e por meio de diferentes mtodos.
Suas abordagens vinculam-se aos diversos paradigmas que vo se
contextualizando atravs do tempo. Dessa forma, sua concepo reflete
uma postura filosfica em face da educao. Observa-se, porm, que,
independentemente do paradigma ou da postura filosfica, h um eixo
comum entre as diversas concepes de avaliao educacional. Todas elas
associam-se a um processo interpretativo de dados quantitativos e/ou
qualitativos, supondo um juzo de valor, qualidade ou mrito que tem por
meta diagnosticar e verificar o alcance dos objetivos propostos no processo
ensino-aprendizagem.
Sabe-se que avaliar, se tais objetivos foram alcanados, no decorre
de uma simples verificao da aprendizagem. Esse diagnstico vai muito
alm, pois h toda uma conjuntura que propicia a aprendizagem do aluno
ou no. No cotidiano, constata-se que o processo pedaggico ocorre por
meio da relao que se estabelece entre professores, alunos, direo,
administrao, estrutura fsica da escola, comunidade, entre outros, e nessa
relao esto envolvidas as mltiplas dimenses que formam cada ser
humano. Portanto, uma avaliao, que pretenda avaliar a qualidade da
educao oferecida por uma escola, por uma rede ou por um sistema, deve
estar embasada em um modelo que contemple todas as relaes possveis
de serem avaliadas.
O objetivo deste artigo discutir o instrumento utilizado para
avaliar o desempenho dos alunos pelo Sistema Nacional de Avaliao da
Educao Bsica (Saeb), apresentando um modelo de anlise das provas e
itens fundamentado em anlises pedaggicas e psicomtricas, as quais
foram realizadas de forma integrada. A principal contribuio deste estudo
mostrar que, ao realizar as anlises sugeridas, as provas podem se
constituir em indicadores confiveis e teis para o sistema de informaes
da qualidade da educao brasileira.
2 O SAEB
A primeira discusso de um sistema de avaliao em larga escala
surgiu durante o perodo de redemocratizao do pas, em 1985-1986. O
objetivo principal da primeira proposta foi levantar informaes teis sobre
o que estava sendo gerado no setor educacional, como, onde, quando e
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 46
quem eram os responsveis pelo produto obtido. Dessa forma, surgiu o
Sistema Nacional de Avaliao da Educao Bsica (Saeb), como uma
atribuio do Ministrio da Educao que, em 1990, iniciou a coleta de
informaes sobre a qualidade da educao brasileira.
O Saeb, atualmente, avalia, de maneira sistemtica e peridica, o
desempenho dos alunos da educao bsica em todo o territrio nacional.
A finalidade primeira do Saeb obter resultados sobre a qualidade do
ensino ao longo do tempo e identificar os fatores que contribuem para a
ocorrncia desses resultados, visando a melhoria da qualidade da educao
bsica do Brasil. O segundo objetivo do Saeb monitorar o avano
alcanado pelos programas e pelas polticas governamentais em relao s
metas educacionais.
Para atingir esses objetivos, vrios instrumentos so empregados,
alm das provas de avaliao do desempenho escolar. Adicionalmente, so
utilizados questionrios que permitem: 1) obter informaes sobre as
caractersticas da realidade socioeconmica e cultural e hbitos de estudo
dos alunos; 2) avaliar o perfil e as prticas pedaggicas dos professores; 3)
avaliar o perfil e as prticas de gesto escolar dos diretores; e 4) realizar o
levantamento dos equipamentos disponveis e das caractersticas fsicas e
de conservao das escolas. Os indicadores resultantes dessas avaliaes
permitem que se faam associaes, correlaes, anlises hierrquicas e
estudos relevantes sobre a realidade educacional brasileira.
A construo de instrumentos, que objetivam medir o nvel de
competncia dos alunos, requer um conhecimento sistemtico das
habilidades especficas a serem alcanadas no processo ensino-
aprendizagem. Assim, as provas para avaliar o desempenho dos alunos
constituem um processo de coleta de dados de uma amostra representativa
de comportamentos. Este processo envolve o conhecimento das diferentes
habilidades que so requeridas para a construo de determinadas
competncias que usam como meio os contedos que servem de orientao
para o processo ensino-aprendizagem.
3 CONSTRUO DAS PROVAS DO SAEB EM 1997 E 1999
Neste estudo, foi feita a anlise das provas de Matemtica da 8
srie, do Saeb, aplicadas em 1997 e 1999. Como os resultados dessas provas
so indicadores teis para o sistema de informao da qualidade da
educao brasileira, importante ressartar que eles devem demonstrar e
comprovar a sua objetividade, confiabilidade e qualidade.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 47
A elaborao das provas teve por base as Matrizes Curriculares de
Referncia (Pestana et al., 1997, 1999). importante observar que essas
provas tm alcance nacional; portanto, fundamental que sejam orientadas
pelo estabelecimento prvio dos contedos desejveis e necessrios s
demandas e exigncias implcitas no sistema educacional brasileiro, alm
de considerar todas as diferenas regionais.
As matrizes curriculares, tanto de 1997 quanto de 1999, foram
desenvolvidas a partir de uma ampla consulta nacional e consensual sobre
os contedos praticados nas escolas brasileiras de ensino fundamental e
mdio, bem como da reflexo de professores, pesquisadores e especialistas
a respeito da produo cientfica em cada rea que se torna objeto de
conhecimento escolar. Estabelecidos os contedos, estes foram
hierarquizados e distribudos em trs ciclos, com terminalidades na 4 e 8
sries do Ensino Fundamental (EF) e na 3 srie do Ensino Mdio (EM),
abrangendo as seguintes disciplinas: Lngua Portuguesa, Matemtica,
Cincias, Histria, Geografia, Fsica, Qumica e Biologia.
A esses contedos foram associadas as competncias cognitivas
exigidas para cada uma das disciplinas, assim como as habilidades
instrumentais delas advindas. Citando Pestana et al., 1997:
Competncias cognitivas so modalidades estruturais da inteligncia, isto ,
operaes que o sujeito realiza para estabelecer relaes com e entre os objetos,
situaes, fenmenos e pessoas (observar, representar, imaginar, reconstruir,
comparar, classificar, ordenar, memorizar, interpretar, inferir, criticar, supor,
levantar hipteses, escolher, decidir etc.). J as habilidades instrumentais referem-
se especificamente ao plano do saber fazer e decorrem diretamente do nvel
estrutural das competncias adquiridas que se transformaram em habilidades.
(p.7)
As competncias foram categorizadas em trs nveis distintos de
aes e de operaes mentais, que se diferenciam pela qualidade das
relaes que se estabelecem entre o sujeito e o objeto do conhecimento: o
nvel bsico, o operacional e o global.
No nvel bsico (presentativo) esto as aes que tornam presente o
objeto do conhecimento para o sujeito. No nvel operacional (procedural)
esto as aes e operaes que pressupem o estabelecimento de relaes
com e entre os objetos. No nvel global encontram-se as aes e operaes
mais complexas que envolvem a aplicao de conhecimentos e a resoluo
de problemas inditos. Para cada nvel de competncias, so listadas as
aes e as operaes correspondentes esperadas para todos os contedos e
sries avaliadas.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 48
A construo das matrizes ocorreu pela constituio do universo
possvel de cruzamentos entre os contedos e as competncias referentes
aos diferentes nveis e ciclos de avaliao. Deste cruzamento, resultaram os
descritores do desempenho desejvel do aluno que, no seu conjunto,
expressam a totalidade dos indicadores necessrios para a orientao da
construo dos itens constituintes das provas.
A matriz curricular de referncia para cada disciplina ficou
estruturada da seguinte forma: na dimenso contedos foram expostos os
temas e tpicos e/ou assuntos relacionados a cada disciplina e srie, e na
dimenso competncias foram colocados os trs nveis de competncias e
habilidades ou descritores envolvidos. Os descritores referentes a cada
tpico foram ento associados a cada competncia, e os itens foram
construdos seguindo o critrio de proporcionalidade.
As Matrizes Curriculares de Matemtica de 1997 e 1999 se apoiaram
em trs premissas bsicas: 1) os conceitos matemticos no se constituem
verdades absolutas e so formados de maneira inter-relacionada,
contemplando diferentes procedimentos de soluo; 2) a aquisio do
conhecimento de Matemtica d-se por meio de aprendizagens
significativas, as quais esto relacionadas com o mundo real do sujeito,
interpretado e construdo em diferentes linguagens; e 3) a avaliao deve
aproximar-se o mximo possvel da situao de aprendizagem do aluno.
Essas trs premissas, aliadas s limitaes impostas ao tipo de avaliao a
ser realizada, indicaram a proposio de uma matriz compreendida
basicamente de situaes-problema por meio da qual tem-se a
possibilidade de avaliar satisfatoriamente as competncias evidenciadas
pela aprendizagem dos contedos matemticos.
4 ANLISE DE ITENS
Os itens elaborados para cada prova podem ser analisados
qualitativamente em termos pedaggicos, de contedo e forma, assim
como quantitativamente em termos psicomtricos, ou seja, das
propriedades estatsticas. A anlise qualitativa realizada com base na
validade de contedo e nos procedimentos efetivos da elaborao dos itens.
A anlise quantitativa inclui procedimentos de anlise da Teoria Clssica
dos Testes (TCT), da Anlise Fatorial e da Teoria de Resposta ao Item (TRI).
Ambas as anlises (qualitativas e quantitativas) visam avaliar a validade, a
fidedignidade e a objetividade dos testes.
Segundo Anastasi e Urbina (2000), os procedimentos de validao e
descrio do contedo de uma prova envolvem, principalmente, o seu
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 49
exame sistemtico, para determinar se ele abrange uma amostra
representativa do domnio do comportamento a ser medido. O contedo
precisa, portanto, ser amplamente definido para incluir todos os objetivos
importantes desde a aplicao at o conhecimento factual da
aprendizagem. Deve-se cuidar, ainda, para que o teste realmente mea o
que props medir, de forma a incluir itens que cubram to-somente o
contedo a ser avaliado e que revele os processos usados pelo educando
para fazer o teste.
Nunnaly e Bernstein (1994) afirmam que a validade de contedo
tambm se refere a uma questo de generalizao cientfica a extenso
segundo a qual, pode-se generalizar, de um conjunto particular de itens,
todos os itens possveis relacionados a um domnio maior.
Os procedimentos especficos para a validade de contedo incluem:
1) a escolha dos contedos apropriados; 2) a elaborao de uma tabela de
especificaes dos testes; 3) a distribuio proporcional por ordem de
importncia; e 4) a anlise terica dos itens, incluindo a anlise semntica
por sujeitos da prpria populao de interesse e a anlise do contedo do
teste por peritos nas reas do conhecimento. Os itens que no alcanarem
tais critrios devero ser retirados do conjunto de itens.
A anlise emprica dos itens realizada por meio dos dados
coletados de uma amostra representativa de sujeitos de uma populao
cujo sistema est sendo avaliado, utilizando-se anlises estatsticas. A
anlise, embora utilize tcnicas estatsticas diferentes, fornece informaes
que, na maioria das vezes, se confirmam.
4.1 ANLISE DE ITENS PELA TCT
O modelo clssico da psicometria tradicional (Pasquali, 1997) est
fundamentado na Teoria Clssica dos Testes (TCT). Esta considera os testes
como um conjunto de estmulos comportamentais (itens) cuja qualidade
definida em termos de um critrio; este, por sua vez, representado por
comportamentos presentes ou futuros. A TCT est apoiada no seguinte
paradigma: o escore emprico ou bruto do sujeito constitudo de dois
componentes: 1) o escore real ou verdadeiro (V) do sujeito no
comportamento avaliado; e 2) o erro de medida (E). O erro, sempre
presente em qualquer medida emprica, resulta no modelo fundamental da
psicometria, o qual confirma a tese de que o escore bruto de um
examinando a soma do escore verdadeiro e do erro (T= V + E). Este
modelo implica alguns postulados bsicos: a) o escore esperado o escore
verdadeiro. Isto decorre do conceito de esperana matemtica do escore
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 50
emprico, ou seja, se o sujeito responde infinitas vezes ao mesmo teste, ele
ter infinitos diferentes escores empricos, e a mdia destes infinitos
escores ser o escore verdadeiro, porque ela eliminaria os erros; b) no h
correlao entre o escore verdadeiro e o erro, pois a correlao entre o
escore verdadeiro e o erro zero; portanto, no h nenhuma razo para
supor que escores verdadeiros maiores tero erros positivos e escores
verdadeiros menores tero erros negativos; e c) os erros em testes paralelos
no so correlacionados.
O modelo da TCT baseado em dados empricos coletados de um
conjunto de itens agrupados inicialmente de maneira intuitiva. O teste
construdo por meio da seleo de uma amostra de itens coletados de um
universo que parece medir um dado construto. Essa maneira de construir
instrumentos psicomtricos est fundamentada na idia de que existe, para
cada construto, um conjunto indefinido de itens, a partir do qual uma
amostra extrada para construir o teste. A definio dos itens, que
comporo o teste, feita por meio da validade aparente, ou seja, escolhem-
se aqueles itens que parecem estar medindo a mesma coisa. Na TCT, os
parmetros do item e da habilidade so dependentes da amostra e do teste.
A validade na TCT consiste na verificao da hiptese de que o teste
capaz de predizer um critrio externo, o qual representado por
comportamentos. Assim, a demonstrao da validade uma questo de
legitimao do instrumento em relao ao erro de estimao, ou seja, a
verificao da magnitude do escore verdadeiro que concebido como
representante legtimo do trao latente.
Um parmetro importante a ser analisado, utilizando-se a TCT, a
dificuldade dos itens que compem um teste. Esta pode ser definida como
a porcentagem de examinandos que respondem corretamente aos itens. O
clculo da dificuldade de cada item, ou o valor p, feito dividindo-se o
nmero de pessoas que acertaram o item pelo nmero total de pessoas que
o responderam. Geralmente, testes que alcancem um ndice mdio de
dificuldade em torno de 0,5 produzem distribuies de escores no teste
com maior variao (Bloom, 1971; Vianna, 1982; Pasquali, 1997; McIntire,
Miller, 2000; Anastasi, Urbina, 2001). Para fins de avaliao de larga escala,
os testes devem ser compostos de itens que alcancem todo o continuum da
escala, ou seja, devem ter uma amplitude que inclua itens fceis, medianos
e difceis (Vianna, 1989).
Outro parmetro importante a discriminao dos itens, que se
refere ao poder que um item possui para distinguir sujeitos com
magnitudes de traos diferentes, do qual o item constitui a representao
comportamental (Pasquali, 1997). Quanto mais prximas forem as
magnitudes do trao que o item puder diferenciar, mais discriminativo ele
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 51
ser. Estatisticamente, esse conceito, na TCT, representa a correlao dos
escores dos sujeitos no item com seus escores no teste total. De acordo com
Marshall e Hales (1972), em Wilson, Wood e Gibbons (1991), existem mais
de 60 ndices propostos para medir o poder de discriminao de um item.
O Saeb utiliza a correlao bisserial. Esta uma medida de
associao entre o desempenho no item e o desempenho no teste. A
correlao bisserial menos influenciada pela dificuldade do item e tende a
apresentar menos variao de uma situao de testagem para outra
(Wilson, Wood, Gibbons, 1991). Sua frmula :
) ( p h
p
x
S
M M
r
p
b

= , onde
p
M = mdia no teste dos sujeitos que acertam o item (p)
M = mdia total do teste
S = desvio padro do teste
p = proporo de sujeitos que acertam o item
h(p) = a ordenada na curva normal no ponto de diviso dos
segmentos que contm as propores p dos casos.
4.2 ANLISE GRFICA DOS ITENS
Esta nova tcnica foi desenvolvida por T. A. van Batenburg e J. A.
Laros (2001) e baseada no pressuposto de que os construtores de itens
devem conhecer muito bem o contedo ensinado e seus objetivos. Eles
precisam de habilidades especficas para construir um bom item de
mltipla escolha. Construir um item de mltipla escolha bom uma tarefa
complexa; o item deve ter uma e somente uma resposta correta, sem
haver nenhuma discusso a esse respeito. As alternativas devem ser
atrativas, mas no confusas. importante no somente avaliar a dimenso
de reconhecimento do que foi ensinado, mas tambm a dimenso de
aplicao e de compreenso.
Os dois pressupostos vlidos para essa anlise so: a) um aluno que
d uma resposta certa em um item de mltipla escolha sabe mais que um
aluno que d a resposta errada; e b) um aluno que tem mais itens certos
sabe mais que um aluno com menos itens certos.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 52
Isso implica que aqueles que acertam todos os itens (o escore
mximo) tm probabilidade 1 de terem marcado a alternativa correta; e
aqueles que tm todos os itens errados, tm probabilidade 0 de terem
marcado a alternativa correta. Entretanto, num caderno com 39 itens de
mltipla escolha, com quatro alternativas, como o caso das provas
avaliadas nesse estudo, poucos alunos tero o escore 0, em razo da
possibilidade de acerto ao acaso. Um aluno que somente chuta as
questes ter uma chance de acertar, aproximadamente, dez questes (39 x
0,25). Assim, pode ser esperado que a proporo de acerto ao item aumente
de 0 para 1 conforme vai aumentando o escore total. Acredita-se, tambm,
que as alternativas falsas decresam com o aumento do escore total. At um
certo escore, pode-se esperar que as alternativas certas e as falsas fiquem
nos valores da chance de acerto ao acaso (0,25, neste caso). Depois deste
escore total especfico, a proporo de marcao da alternativa correta
aumenta, e a proporo de marcao das alternativas falsas decresce. A
anlise da dificuldade do item pela AGI realizada considerando-se a
inclinao (slope). Na TRI, a dificuldade de um item definida no ponto
onde a linha de proporo 0,5 corta a linha do item. Em uma abordagem
visual isso definido da mesma forma: a linha do item discrimina entre
pessoas no intervalo acima das alternativas no mximo de 1 (um). Isto
chamado de intervalo de informao. Se a proporo de respostas para a
alternativa correta aumenta rapidamente com o escore total, o item ter um
alto poder discriminativo; caso contrrio, ser baixo.
No mtodo grfico usado, as propores das alternativas dos itens
esto sendo plotadas em contraposio ao escore total. Nas figuras a seguir,
so apresentados exemplos de grficos para a anlise de itens.
Figura 1 Item bom Figura 2 Item ruim
Escore total
36
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
P
r
o
p
o
r

o

d
e

r
e
s
p
o
s
t
a
s

s

a
lt
e
r
n
a
t
iv
a
s
1,2
1,0
,8
,6
,4
,2
0,0
M8_C
M8_A
M8_B
M8_C
M8_D
M8_E

Escore total
36
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
P
r
o
p
o
r

o

d
e

r
e
s
p
o
s
t
a
s

s

a
lt
e
r
n
a
t
iv
a
s
1,0
,8
,6
,4
,2
0,0
M8_A
M8_A
M8_B
M8_C
M8_D
M8_E
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 53
Figura 3 Item muito difcil Figura 4 Item com discriminao ruim

Escore total
38
36
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
P
r
o
p
o
r

o

d
e

r
e
s
p
o
s
t
a
s

s

a
lt
e
r
n
a
t
iv
a
s
1,2
1,0
,8
,6
,4
,2
0,0
M8_082
M8_A
M8_B
M8_C
M8_D
M8_E

Escore total
38
36
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
P
r
o
p
o
r

o

d
e

r
e
s
p
o
s
t
a
s

s

a
lt
e
r
n
a
t
iv
a
s
1,0
,8
,6
,4
,2
0,0
M8_C
M8_A
M8_B
M8_C
M8_D
M8_E
4.3 ANLISE FATORIAL
O modelo da anlise fatorial est embasado no pressuposto de que
uma srie de variveis observveis pode ser explicada por um nmero
menor de variveis hipotticas, no-observveis, chamadas de fatores.
Essas variveis seriam a causa do fato de as variveis observveis se
relacionarem entre si. Dessa forma, supe-se que se as variveis se
relacionam entre si porque elas tm uma causa comum que produz essa
correlao. Tal causa chama-se fator e do que a anlise fatorial trata.
A relao entre cada item e o fator expressa por meio da
covarincia ou correlao e denominada carga fatorial. Esta mostra o grau
com que cada item contribui para a mensurao do fator nico. Itens que
tm cargas mais altas no fator so considerados unidimensionais, pois esto
medindo o mesmo fator. O critrio mnimo da carga fatorial, citado na
literatura, para que o item componha um mesmo fator, 0,32 (Tabachnick,
Fidell, 1996). Esse critrio indica que a contribuio do item na composio
do fator seria de aproximadamente 10%.
4.4 ANLISE DE ITENS PELA TRI
O modelo da psicometria moderna est fundamentado na Teoria
de Resposta ao Item (TRI) que se relaciona ao modelo do trao latente ou da
habilidade possuda. A idia bsica da TRI apia-se em dois postulados
fundamentais: a) o desempenho de um examinando em um teste pode ser
predito ou explicado por fatores chamados traos latentes ou habilidades; e
b) o relacionamento entre o desempenho de um examinando no item e os
traos subjacentes ao desempenho no item pode ser descrito como uma
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 54
funo monotonicamente crescente, chamada funo caracterstica do item ou
curva caracterstica do item (CCI). Esta funo especifica que, medida que o
nvel do trao ou da habilidade aumenta, a probabilidade de uma resposta
correta ao item aumenta. Portanto, examinandos com valores mais altos no
trao examinado tm probabilidades mais altas de responderem
corretamente ao item do que estudantes com valores mais baixos no trao,
independentemente do grupo a que pertencem (Hambleton, Swaminathan,
Rogers, 1991).
Existem muitos modelos possveis de resposta ao item que se
diferem na forma matemtica da funo caracterstica do item e/ou no
nmero de parmetros especificados no modelo. Todos os modelos de TRI
contm um ou mais parmetros descrevendo o item e tambm um ou mais
parmetros descrevendo o examinando. Um dado modelo de TRI pode ou
no ser apropriado para um conjunto particular de dados de um teste, isto
, o modelo pode no predizer ou explicar adequadamente os dados. Em
qualquer aplicao da TRI, essencial avaliar a adequao do modelo aos
dados.
Quando um modelo de TRI adequado aos dados do teste de
interesse, vrias caractersticas desejveis so obtidas. As estimativas da
habilidade dos examinandos no so dependentes do teste, e os ndices no
so dependentes do grupo. Estimativas de habilidade obtidas de diferentes
conjuntos de itens sero as mesmas (exceto por erros de medida) e as
estimativas dos parmetros do item em diferentes grupos de examinandos
sero tambm as mesmas (exceto por erros amostrais). Resumindo, tem-se
que os parmetros do item e da habilidade so invariantes, considerando-se
uma escala nica, e esta propriedade obtida pela iterao da informao
acerca do processo de estimao das habilidades dentro do processo de
estimao dos parmetros do item.
Os modelos matemticos empregados na TRI pressupem que a
probabilidade de um examinando responder a um dado item corretamente
depende de sua habilidade e das caractersticas do item. A TRI inclui um
conjunto de pressupostos acerca dos dados para os quais o modelo ser
aplicado. Os dois principais pressupostos so o da unidimensionalidade e o
da independncia local. A unidimensionalidade supe que somente uma
habilidade esteja sendo medida pelos itens que compem o teste. A
independncia local est relacionada ao conceito da unidimensionalidade e
pressupe que as respostas dadas aos itens dependem somente da
habilidade que est sendo medida e no de outras habilidades. Assim, as
respostas dos examinandos para qualquer par de itens devero ser
estatisticamente independentes. Para todos os modelos da TRI, a funo
caracterstica do item deve refletir o relacionamento verdadeiro entre
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 55
variveis no-observveis (habilidades) e variveis observveis (respostas
aos itens).
A funo caracterstica do item ou a curva caracterstica do item uma
expresso matemtica que relaciona a probabilidade de sucesso (dar uma
resposta correta) em um determinado item, segundo a habilidade medida
pelo teste e segundo as caractersticas do item. A escolha do nmero de
parmetros a serem usados no modelo envolve pressupostos acerca dos
dados, e tais suposies podem ser verificadas mais tarde pelo exame de
quo bem o modelo explica os resultados observados pelo teste. Os trs
modelos de TRI mais populares so os modelos logsticos de um, dois e trs
parmetros.
No Saeb, usado o modelo logstico de trs parmetros, que dado
pela expresso matemtica:
) (
) (
1
) 1 ( ) (
i i
i i
b Da
b Da
i i i
e
e
c c P

+
+ =

i = 1, 2, ...,n;
onde
) (
i
P = probabilidade de um examinando com habilidade
responder corretamente um item i;
ai = parmetro de discriminao do item;
bi = parmetro de localizao do item;
ci = parmetro de pseudo-chance;
n = nmero de itens do teste;
e = um nmero transcendental cujo valor aproximado 2,718;
D = 1,7, que um fator introduzido para tornar a funo logstica
to prxima quanto possvel da funo ogiva normal.
Os modelos da TRI permitem que, com base em informaes
indiretas sobre uma determinada caracterstica no-observvel do sujeito
(trao latente, ou habilidade, ou theta ), se possa obter uma estimao da
localizao para cada indivduo da amostra na escala. O parmetro b para
um item o ponto correspondente na escala da habilidade em que a
probabilidade de uma resposta correta 0,5. Este , portanto, um
parmetro de localizao, indicado pela posio da CCI em relao escala
de habilidade. Quando os valores de habilidade de um grupo so
transformados para a escala de mdia 0 e desvio padro 1, os valores de b
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 56
normalmente variam de 3 a +3. Valores de b prximos de -3
correspondem aos itens que so muito fceis e, ao contrrio, valores de b
prximos de +3 correspondem aos itens que so muito difceis para o
grupo de examinandos. Entretanto, o parmetro b influenciado pelo
parmetro c (acerto ao acaso). Se o modelo de trs parmetros for o
escolhido, deve-se somar ao ponto 0,5, pois nele que ocorre a
probabilidade de 50% de uma resposta correta, ou seja, o valor do
parmetro c dividido por dois.
O parmetro de discriminao do item chamado parmetro ai.
Este proporcional inclinao (slope) da CCI no ponto bi na escala da
habilidade. Itens com inclinaes mais altas so mais teis para separar
examinandos com diferentes nveis de habilidades. Teoricamente, o
parmetro de discriminao do item pode assumir valores na escala de - a
+. Itens que apresentam valores negativos do ndice de discriminao
devem ser descartados. Os valores mais comuns do ndice de discriminao
dos itens variam entre 0 e +2.
O parmetro ci o parmetro da assntota inferior do item e
representa a probabilidade de examinandos com baixa habilidade
responderem corretamente ao item. A seguir, a figura 5 mostra um
exemplo da curva caracterstica de um item.
Figura 5 Exemplo de curva caracterstica do item
Curva caracterstica do item - CCI
0,0
0,2
0,4
0,6
0,8
1,0
-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0
habilidade (trao latente)
p
r
o
b
a
b
i
l
i
d
a
d
e

d
e

r
e
s
p
o
s
t
a

c
o
r
r
e
t
a
b
a
c
iiiiiiii
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 57
Em um teste, cada item contribui com uma parcela significativa
para o resultado final da avaliao. A anlise de itens possibilita identificar
aqueles que desempenham bem e aqueles que so problemticos em
relao produo da informao desejada.
5 CONSIDERAES SOBRE A METODOLOGIA UTILIZADA PARA
O ESTUDO
A proposta do presente estudo apresentar um modelo de anlise
dos instrumentos construdos para avaliar o desempenho do aluno com
base em anlises pedaggicas e psicomtricas dos itens de forma integrada,
bem como, por meio deste modelo, verificar, ainda, a qualidade desses
instrumentos que o Saeb utiliza para avaliar a educao bsica brasileira.
Construir provas, apoiadas nas diretrizes curriculares da educao
brasileira e nos propsitos norteadores da prtica educacional, de forma
que seja possvel avali-las, constitui-se em um grande desafio. Portanto,
este estudo est apoiado na premissa de que uma avaliao desse porte
deve estar fundada nas mais modernas tcnicas de avaliao e pautada por
um extremo rigor cientfico.
A metodologia proposta para este estudo fundamentou-se nos
procedimentos de anlise que revelam esse nvel de qualidade das provas e
dos itens. Foram realizadas anlises de cunho pedaggico, paralelamente s
anlises de cunho psicomtrico, procurando-se, ao longo das
interpretaes, demonstrar que os dois tipos propostos no se bastam
isoladamente. Alm disso, se realizadas de forma integrada, podem revelar
informaes importantes que impactam o sistema educacional brasileiro.
Para esses fins especficos, foram utilizados os bancos de dados coletados
pelo Saeb, em 1997 e em 1999, para a disciplina de Matemtica no nvel da
8 srie.
As provas aplicadas pelo Saeb, a partir de 1995, adotaram o
delineamento usado pelo sistema de avaliao norte-americano National
Assessment of Educational Progress NAEP, chamado Balanced Incomplete
Blocks (Blocos Balanceados Incompletos BIB) em espiral (Beaton,
Johnson, Ferris, 1987). Os Blocos Balanceados Incompletos so uma
variante de matriz amostral. Nem sempre vivel ou desejvel que todos
os itens do teste sejam administrados a todos os respondentes. Entretanto,
muitas vezes, necessrio assegurar uma ampla e representativa cobertura
do contedo da avaliao. Uma maneira pela qual tal representao
realizada por meio do BIB. Em essncia, significa que um conjunto
completo de itens dividido em um nmero menor de blocos. Os blocos
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 58
so, ento, designados para os cadernos, de modo que cada bloco seja
emparelhado com outro bloco para formar um caderno.
Caractersticas desejveis da abordagem em espiral do BIB so
aquelas em que: a) cada bloco aparea na mesma freqncia; b) efeitos da
posio sejam controlados, pois cada bloco aparece uma vez em cada uma
das trs posies; e c) cada combinao de dois blocos aparea apenas uma
vez em um caderno (Kirsch, Jungeblut, 1986).
Por meio desse delineamento, o total de itens ficou disposto em 13
blocos que, combinados de forma espiralada, compuseram 26 diferentes
cadernos. Cada caderno da prova de 1997 teve, em sua composio, de 35 a
39 itens e os cadernos da prova de 1999 foram compostos por 39 itens,
todos dispostos em trs blocos. Nesse sistema, cada bloco apareceu seis
vezes, e cada combinao de blocos apareceu somente uma vez. O total de
itens aplicados em 1997, que foram objeto deste estudo, foi de 161; j, em
1999, o nmero de itens totalizou 169. Em ambas as edies, os itens foram
distribudos em 26 cadernos.
Na Tabela 1, a seguir, apresentada a distribuio aproximada do
nmero de respondentes por item, bloco e caderno para as edies de 1997
e 1999 na disciplina Matemtica 8 srie.
Tabela 1 Distribuio aproximada do nmero de respondentes por
item, bloco e caderno 1997 e 1999
Matemtica 8 srie 1997 1999
Item 4.300 4.100
Bloco 1.480 1.380
Caderno 720 680
Total 18.806 17.890
Os procedimentos para a anlise dos dados deste estudo seguiram
os passos adiante especificados. Todas as anlises propostas foram de
cunho exploratrio, buscando-se sempre apresentar os resultados
psicomtricos obtidos paralelamente anlise pedaggica de cada item. As
anlises pedaggicas das provas como um todo e as pedaggicas dos itens
abrangeram apenas os itens construdos para cada prova, no considerando
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 59
os itens comuns
1
. Em 1997, com a excluso dos itens comuns, o total de
itens, construdos exclusivamente para as provas de Matemtica 8 srie,
foi de 104, e, em 1999, de 117; tem-se que 57 itens foram comuns entre
sries e anos na prova de 1997, e 52 tiveram esta mesma caracterstica em
1999. A anlise do nvel de dificuldade das provas, bem como as anlises
psicomtricas dos itens, individualmente, incluram todos os itens
apresentados nas provas (161 itens em 1997 e 169 em 1999).
1. Analisou-se pedagogicamente a prova como um todo, observando-se:
1.1 a distribuio e a proporo de contedos abrangidos do total
esperado;
1.2 o nvel de dificuldade dos itens que compuseram cada tema
abrangido;
1.3 a distribuio das competncias exigidas para a resoluo do item.
2. Analisou-se pedagogicamente cada item, por meio das seguintes
observaes:
2.1 construo do enunciado, sua linguagem, ilustraes e nvel de
complexidade;
2.2 plausibilidade dos distratores;
2.3 coerncia do gabarito;
2.4 adequao entre o propsito do descritor e o item apresentado;
2.5 adequao ou no para a srie avaliada.
3. Examinou-se psicometricamente os itens por meio das seguintes
anlises:
3.1 anlise grfica dos itens (AGI);
3.2 anlise da unidimensionalidade dos itens pela anlise fatorial full
information. As cargas fatoriais foram extradas desta anlise;
3.3 anlise da dificuldade e discriminao dos itens atravs da (TCT);
3.4 anlise dos trs parmetros da TRI (discriminao, localizao e
acerto ao acaso).
As anlises pedaggicas e psicomtricas realizadas permitiram a
construo de uma tabela sumrio com os ndices gerados de todas as
anlises de cada item das provas de 1997 e 1999.

1
O motivo da no-incluso dos itens comuns deve-se falta de informaes do descritor e
da competncia correspondentes a cada item o que impossibilitaria a anlise da
distribuio dos contedos e das competncias na prova.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 60
Para a realizao desses estudos propostos, as anlises
psicomtricas foram feitas por meio dos seguintes softwares: Statistical
Package for the Social Sciences (SPSS), Bilog - W, verso 3.0 e TESTFACT 2.0.
A seguir, h o modelo da tabela utilizada para anlise da qualidade
dos itens e da prova (Figura 6). O exemplo apenas para ilustrar como
foram reunidas as anlises. Constam, nessa ilustrao, trs itens
relacionados ao primeiro tpico de Matemtica 1997.
Figura 6 Modelo de tabela, contendo especificaes pedaggicas e
psicomtricas para a anlise de alguns itens da prova de
Matemtica 8 srie 1997
Especificaes pedaggicas dos itens 1997
Tema Tpico Descritor Item Competncia
Construo
do item*
Classificar representao de
figuras tridimensionais simples,
de acordo com alguns critrios,
como, por exemplo, nmero de
faces, nmero de pontas, medida
dos lados, formas arredondadas e
no arredondadas.
1 Operacional SP
2 SP
Geometria
Formas
bidimensionais
e
tridimensionais
(elementos e
propriedades)
Comparar figuras bidimensionais
e descrever propriedades a partir
de suas representaes.
12
Operacional
PG/PE/PA
Anlise psicomtrica dos itens 1997
Item AGI Dificuldade Bisserial
Anlise
Fatorial
Par. a Par. b Par. c
1 Bom 0,510 0,443 0,330 0,806 0,439 0,123
2 Bom 0,549 0,471 0,340 1,027 0,319 0,158
12 Ruim Item anulado a priori
* Legenda: SP- sem problemas; PG - problema no gabarito; PE - problema no enunciado; PA - problema
nas alternativas; NAS - no adequado srie.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 61
6 RESULTADOS E DISCUSSO
6.1 ANLISE PEDAGGICA E PSICOMTRICA DAS PROVAS COMO UM TODO
6.1.1 Distribuio dos Contedos nas Provas
A anlise da distribuio das competncias e de sua abrangncia so
muito importantes para as avaliaes educacionais. Uma prova que
contenha amostras insuficientes de competncias relacionadas aos
contedos ou temas para avaliar o conhecimento do aluno numa
determinada disciplina estar com sua validade comprometida.
As Tabelas 2 e 3 apresentam a proporo de itens, por temas e
tpicos, avaliados em Matemtica 8 srie, em 1997 e 1999.
Tabela 2 Proporo do nmero de itens por temas
Temas 1997 1999
Nmeros 0,39 0,37
Geometria e Medidas 0,38 0,48
Estatstica 0,23 0,15
Verifica-se, pela Tabela 2, que a distribuio dos contedos foi
abordada de modo diferenciado nas provas dos dois anos, tendo havido
um privilgio do tema Geometria e Medidas no ano de 1999.
A Tabela 3 apresenta a proporo dos contedos por tpico.
Observa-se que h uma maior concentrao de itens no tpico Figuras
planas para as provas dos dois ciclos. Esta ocorrncia tambm indica uma
falta de ateno na distribuio de contedos das provas avaliadas. Um
fato curioso relatado por especialistas que esse contedo, muitas vezes,
no abordado plenamente at o final do ano letivo, embora o devesse ser.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 62
Tabela 3 Proporo do nmero de itens por tpico
Temas Tpicos 1997 1999
N
os
naturais e operaes 0,05 0,04
N
os
inteiros e operaes 0,13 0,07
N
os
racionais e operaes 0,13 0,18
Nmeros
Operaes algbricas 0,09 0,08
Retas 0,04 0,04
ngulos 0,07 0,08
Figuras planas 0,18 0,27
Geometria e
Medidas
Figuras tridimensionais 0,09 0,09
Estatstica
Noes de proporcionalidade,
porcentagem e juros
0,23 0,15
Considerando que as provas so construdas e aplicadas tendo por
meta traar uma radiografia do sistema educacional como um todo, o fato
de ter havido uma distribuio no-proporcional de contedos e, alm
disso, privilegiando alguns deles, indica um comprometimento da validade
da prova de Matemtica de 1999, como instrumento avaliativo do processo
ensino-aprendizagem do sistema educacional brasileiro.
A Tabela 4, a seguir, foi retirada do Relatrio Saeb 1999 e mostra a
relao entre o desenvolvimento do contedo curricular (informao obtida
dos questionrios aplicados aos professores) e o desempenho do aluno
segundo a Escala de Desempenho do Saeb.
Tabela 4 Desempenho mdio dos alunos por disciplina e srie, segundo
o desenvolvimento dos contedos curriculares em sala de aula
Disciplinas Srie
Menos da
metade (<50%)
Um pouco mais da
metade (50% a 79%)
Quase todo
(80% a 99%)
Todo o contedo
(100%)
4 EF 159,82 163,05 175,54 189,73
8 EF 222,87 227,87 237,16 247,28
Lngua
Portuguesa
3 EM 259,72 259,20 270,04 284,14
4 EF 170,38 173,99 186,32 213,36
8 EF 236,55 239,64 252,41 261,43 Matemtica
3 EM 271,61 271,76 284,62 303,33
Fonte: MEC/INEP/DAEB, 1999.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 63
As escalas de desempenho so utilizadas desde 1995 pelo Saeb para
descrever e comparar o desempenho dos alunos brasileiros nas disciplinas
e sries avaliadas. Essas escalas variam de 0 a 500 pontos e o desempenho
apresentado em ordem crescente e cumulativa. A estimativa de
desempenho obtida para os alunos ou grupos de alunos em cada uma das
trs sries avaliadas indica, portanto, o lugar que eles ocupam na escala.
Em 1997 e 1999, os alunos da 8 srie encontravam-se, em mdia, no Nvel
225 a 275, o qual se caracteriza pelo domnio das seguintes habilidades:
resolver as quatro operaes com nmeros naturais, identificar elementos
das figuras geomtricas, interpretar grficos e tabelas, ler medidas de
temperatura, estabelecer relaes entre diversas unidades de tempo e
manipular o sistema monetrio.
O principal objetivo da escala de desempenho do Saeb fornecer
uma forma de interpretao do desempenho do aluno que descreva o que
os alunos sabem e so capazes de fazer em determinados intervalos da
escala, denominados nveis de desempenho. Esse tipo de interpretao
favorece a anlise da evoluo do desempenho entre os diferentes ciclos de
avaliao, uma vez que torna possvel a interpretao pedaggica de todos
os pontos da escala (Klein, 2003).
A Tabela 5, indica que h uma relao direta e significativa, a um
nvel de confiana de 95%, entre o desenvolvimento dos contedos e o
desempenho dos alunos. Dessa forma, constata-se que, medida que o
percentual de contedo previsto para ser desenvolvido durante o ano
letivo aumenta, o desempenho dos alunos tambm aumenta.
6.1.2 O Nvel de Dificuldade das Provas
O nvel de dificuldade dos itens que compem uma prova de
avaliao de sistema deve obedecer ao critrio de equilbrio: os itens de um
mesmo continuum devem cobrir todos os seus segmentos em termos de
dificuldade (fceis, mdios ou difceis), e essa distribuio deve ter como
base a curva normal (Pasquali, 1997). A seguir, nas figuras 7 e 8,
apresentada a distribuio dos ndices de dificuldade nas duas provas
completas.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 64
Figura 7 Figura 8

DIFICULDADE
,80
,75
,70
,65
,60
,55
,50
,45
,40
,35
,30
,25
,20
,15
,10
Distribuio dos ndices de dificuldade
Prova de Matemtica 1997
F
r
e
q

n
c
i
a
30
20
10
0
Std. Dev = ,18
Mean = ,38
N = 160,00
DIFICULDADE
,90
,85
,80
,75
,70
,65
,60
,55
,50
,45
,40
,35
,30
,25
,20
,15
,10
Distribuio dos ndices de dificuldade
Prova de Matemtica 1999
F
R
E
Q

N
C
I
A
30
20
10
0
Std. Dev = ,20
Mean = ,42
N = 169,00
A dificuldade mdia de todos os itens de 1997 foi de 0,38, enquanto
a de 1999, foi de 0,42. Observa-se que as provas se apresentaram bastante
difceis. Pelo fato de serem provas para avaliao de um sistema, os altos
ndices de dificuldade passam a representar um fator negativo para a prova
do Saeb. A literatura tem indicado que um nvel de dificuldade mdio de
0,50 o ideal para esse tipo de prova, pois se a varincia for pequena a
fidedignidade da prova ser reduzida e, conseqentemente, os resultados
tambm sero menos fidedignos.
Outra anlise realizada foi a da dificuldade mdia dos itens nos
tpicos. Os grupos de itens por tpico referem-se apenas queles que
continham a informao do descritor. A Tabela 5 apresenta esses dados.
Tabela 5 ndice de dificuldade mdia, segundo o tpico
Temas Tpicos 1997 1999
N
os
naturais e operaes 0,35 0,44
N
os
inteiros e operaes 0,39 0,39
N
os
racionais e operaes 0,32 0,32
Nmeros
Operaes algbricas 0,36 0,35
Retas 0,30 0,36
ngulos 0,41 0,39
Figuras planas 0,27 0,31
Geometria e
Medidas
Figuras tridimensionais 0,27 0,35
Estatstica
Noes de proporcionalidade,
porcentagem e juros
0,31 0,45
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 65
Os dados apresentados na Tabela 5 indicam que h um nvel mdio
de dificuldade pouco varivel entre os tpicos. Nota-se que os alunos
submetidos ao Saeb de 1999 apresentaram igual ou maior dificuldade em
relao aos de 1997 nos tpicos: Nmeros inteiros e operaes,
Nmeros racionais e operaes, Operaes algbricas e ngulos.
Essa informao pode estar revelando problemas no processo ensino-
aprendizagem em relao a esses tpicos em especfico, pois a proporo
de acertos nos tpicos citados baixa.
A Tabela 6 apresenta a porcentagem de itens, segundo o tema, com
ndice de dificuldade menor que 0,30, ou seja, menos de 30% dos alunos
respondem ao item corretamente. Em nmeros absolutos, apurou-se que a
prova de 1997 apresentou 58 itens com ndices menores que 0,30, enquanto
a prova de 1999 apresentou 55 itens com tal caracterstica.
Tabela 6 Porcentagem do nmero de itens com ndice de
dificuldade menor que 30,0, segundo o tema
Temas 1997 1999
Nmeros 41,0 44,0
Geometria e Medidas 59,0 51,0
Estatstica 54,0 41,0
Prova total 51,0 47,0
6.1.3 Distribuio das Competncias Exigidas para a Resoluo do Item
Foram considerados, para anlise, os trs nveis de competncias
cognitivas: o nvel bsico, o nvel operacional e o nvel global. Os itens
relacionados s competncias do nvel bsico requerem habilidades como
lembrar e reconhecer noes e operaes bsicas; os itens das competncias
do nvel operacional exigem que o aluno compreenda, explique e relacione
os conceitos matemticos aprendidos para aplic-los a situaes cotidianas
e prticas da vida; os itens das competncias do nvel global so aqueles
que requerem habilidades de maior complexidade na busca da soluo dos
problemas.
A Tabela 7 apresenta a distribuio das competncias, segundo os
temas e tpicos, das provas de Matemtica dos dois anos avaliados.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 66
Tabela 7 Distribuio proporcional do nmero de itens, por
competncias, segundo os temas e tpicos Matemtica
1997/1999
Competncias
Temas/Tpicos Ano
Bsica Operacional Global
Nmero e
operaes
1997
1999
0,15
0,28
0,68
0,70
0,17
0,02
Geometria e
medidas
1997
1999
0,23
0,23
0,62
0,67
0,15
0,11
Estatstica
1997
1999
--
--
0,88
0,88
0,12
0,12
Total
1997
1999
0,15
0,21
0,70
0,71
0,15
0,08
Observa-se que a distribuio por competncias aparece um pouco
mais equilibrada em 1997 do que em 1999. O nvel de competncia
operacional foi o mais privilegiado nas provas, o que uma prtica
comum.
6.2 ANLISES PEDAGGICA E PSICOMTRICA DOS ITENS DAS PROVAS
Os itens devem ser analisados com rigor em seus dois campos de
anlise possveis: o pedaggico e o psicomtrico. Um no deve ser mais
privilegiado do que o outro. Ao contrrio, eles devem complementar-se.
Essas anlises tm por objetivo avaliar a validade dos itens.
6.2.1 Aspectos Pedaggicos dos Itens
A respeito da construo do item, foram analisados aspectos de
contedo e da forma. Considerando a natureza do contedo, avaliou-se se
o item conseguiu atingir o objetivo proposto. Nesse aspecto especfico,
constatou-se que, tanto para a prova do ano de 1997 quanto para a de 1999,
em sua grande maioria, os itens alcanaram os objetivos propostos.
Percebeu-se que alguns, embora tivessem cumprindo o seu papel, no se
adequaram srie em questo ou ao desenvolvimento cognitivo esperado
para o aluno nesse nvel. Levanta-se a hiptese de que elaboradores de
itens, ao constru-los, no consideraram a amplitude do sistema
educacional brasileiro e o desenvolvimento mental do aluno em cada nvel
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 67
de escolaridade. O aluno, no nvel pesquisado (8 srie), tem uma idade
mdia de 14 anos, o que pressupe que ele esteja num processo de
maturao cognitiva, no tendo atingido, ainda, a plenitude do pensamento
formal (Piaget, 1967). Alm do problema da maturao, tem-se tambm o
problema da influncia do conhecimento prvio na resoluo de
problemas. Muitas vezes, no entanto, esse conhecimento ainda no est
consolidado, de forma que o aluno no consegue alcanar o sucesso
esperado na soluo da questo. Na anlise realizada, itens com problemas
dessa natureza foram considerados no adequados srie.
Outro ponto levado em considerao no que se refere anlise da
construo do item foi o aspecto formal. Aqui, o item foi analisado
considerando-se o enunciado, as alternativas (gabarito e distratores) e as
ilustraes. Na Tabela 8, exibida a porcentagem do nmero de itens que
apresentaram problemas pedaggicos.
Tabela 8 Porcentagem do nmero de itens que apresentam problemas
pedaggicos
Problemas pedaggicos dos itens 1997 1999
No enunciado 2,0 2,0
Nas alternativas 2,0 1,0
Nas ilustraes 1,0 2,0
No adequados srie 12,0 5,0
Em relao ao enunciado, observou-se se cada item abordou apenas
um problema. Em princpio, este deveria ser bem formulado de modo que
o aluno, apenas lendo-o, fosse capaz de raciocinar sobre a resposta sem
depender da leitura de todas as alternativas. Alm disso, verificou-se se o
item expressava um comportamento, e no uma abstrao, permitindo ao
sujeito uma ao clara e precisa do que ele deveria fazer.
Outro aspecto importante relacionado ao enunciado o que diz
respeito linguagem e simplicidade em sua formulao. Foi observada a
clareza de linguagem, a objetividade e a simplicidade na forma de
composio do problema. O item deve apresentar um equilbrio formal-
estrutural para atingir todos os estratos da populao-alvo, sem prejuzo ou
privilgio para qualquer parte deles.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 68
De um modo geral, houve poucos problemas relacionados
construo do enunciado. O problema mais comum foi a falta de clareza,
pois difcil para o elaborador de itens colocar-se no lugar do respondente.
Ele costuma seguir a sua prpria lgica. Outro problema que surgiu foi a
falta de objetividade na exposio da questo, levando interpretao
dbia.
Em relao s alternativas, observou-se: 1) a coerncia da estrutura
e do tamanho; 2) a plausibilidade dos distratores, ou seja, se elas
mantiveram um grau de racionalidade com o enunciado; e 3) a clareza do
gabarito, no dando chance ao aluno que sabe ficar em dvida com a
resposta.
Houve tambm poucos problemas relativos s alternativas. Os
problemas mais freqentes foram em relao estrutura e ao tamanho.
Algumas alternativas tornavam-se atrativas em funo do tamanho; outras
exigiam mais operaes mentais em razo de sua estrutura. Por exemplo,
questes que em suas alternativas apresentam, ao mesmo tempo, operaes
mentais de naturezas diferentes, tornam-se mais difceis para o aluno. Ao
contrrio, essas devem se apresentar simples e diretas.
Constatou-se que houve poucos problemas relacionados poluio
visual causada pelas ilustraes que, s vezes, em vez de ajudar,
atrapalham.
A maior proporo de problemas foi com relao adequao do
item srie avaliada (12%). Este um problema srio numa avaliao de
larga escala, pois pode comprometer os resultados. Alguns especialistas
acreditam que isso ocorre em razo da falta de prtica, em sala de aula, dos
elaboradores dos itens e do mau planejamento na montagem da prova.
Entretanto, quando esse planejamento realizado de maneira cuidadosa a
no-adequao detectada pelos prprios resultados psicomtricos. Outra
questo a ser notada relaciona-se ao conhecimento da fase de
desenvolvimento cognitivo em que o aluno se encontra. comum a
elaborao de itens que exigem um nvel de abstrao para o qual eles
ainda no tm amadurecimento suficiente para compreend-los e
respond-los.
6.2.2 Aspectos Psicomtricos dos Itens
6.2.2.1 Anlise grfica dos itens
A Anlise Grfica dos Itens (AGI) dispe de recursos visuais, em
que apresentada a relao entre o escore total e as porcentagens de
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 69
respostas s alternativas verdadeiras e falsas dos itens. Essa anlise
permitiu identificar: bons itens; itens extremamente difceis; itens que
apresentam uma ou mais alternativas falsas e mantm um aumento da
porcentagem de respostas com o aumento do escore total (problema de
discriminao); e itens cujas alternativas verdadeiras apresentam um
decrscimo na porcentagem de respostas em relao ao aumento do escore
total (itens ruins). O principal pressuposto dessa anlise, segundo van
Batenburg e Laros (2001), : a proporo da alternativa correta deve
aumentar com um aumento do escore total, e a proporo de alternativas
falsas deve decrescer com um aumento do escore total.
Os resultados dessa anlise, que tm por base o escore total,
retratam a tendncia real dos alunos quando respondem ao item. Esses
resultados radiografam a realidade. Quando a anlise de um item revela
que houve uma disperso nas respostas s alternativas, no significa que o
problema seja da construo do item, mas pode estar indicando uma falta
coletiva de conhecimento de determinado assunto abordado neste item.
Assim, importante que, em conjunto com a AGI, seja realizada uma
anlise pedaggica desses itens. Essas anlises podero dar indicativos do
processo mental utilizado para a soluo da questo, associando-se o escore
total e as respostas aos distratores. A Tabela 9 apresenta a porcentagem do
nmero de itens distribudos em cada categoria, considerando-se essa
anlise.
Tabela 9 Porcentagem do nmero de itens por categoria de qualidade
psicomtrica, com base na AGI
Qualidade Psicomtrica do Item 1997 1999
Bom (sem problema) 69,0 85,0
Ruim 4,0 7,0
Difcil 2,0 4,0
Com baixa discriminao 7,0 4,0
Observa-se que, na prova de 1997, 69% dos itens apresentaram um
bom comportamento, enquanto em 1999 a porcentagem foi de 85%. Os
demais itens, nos dois anos avaliados, apresentaram algum tipo de
problema.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 70
6.2.2.2 Anlise da dificuldade dos itens
A dificuldade dos itens, baseada na TCT, calculada com base na
percentagem de examinandos que respondem corretamente a um dado
item. Associando-se os ndices gerados por essa anlise s informaes
pedaggicas do item, podem-se obter dados que mostram onde os alunos
esto mais defasados, em termos das competncias que deveriam ter
construdo.
O estudo realizado aponta que, na prova de Matemtica de 1997, os
descritores que apresentaram maior nmero de itens com ndices de
dificuldade inferiores a 30% foram os seguintes: Utilizar as relaes
mtricas no tringulo retngulo (Teorema de Pitgoras), para solucionar
problemas (Descritor 38, do tema Geometria e Medidas, do tpico
Figuras planas) e Solucionar situaes-problema analisando
informaes apresentadas em tabelas e grficos mais usuais (Descritor 64,
do tema Estatstica, do tpico Noes de proporcionalidade,
porcentagem e juros). O descritor 38 apresentou trs itens com
dificuldades que variaram de 12,0 a 29,0, e o descritor 64 trs itens com
dificuldades entre 15,0 e 23,0.
Em relao aos itens da prova de Matemtica, de 1999, o descritor
que teve maior nmero de itens com ndices menores que 30,0 foi Aplicar
a noo de rea de figuras planas como tringulo, paralelogramo e
trapzio (Descritor 19, do tema Geometria e Medidas, do tpico
Figuras planas). Este descritor apresentou seis itens com dificuldades que
variaram de 10,0 a 29,0. A Tabela 10 mostra o nmero de itens mais difceis
(ndices menores que 30,0) por tpico.
Tabela 10 Distribuio do nmero de itens com ndice de dificuldade
menor que 30,0, por tpico
Matemtica 1997 Matemtica 1999
Temas
Tpicos N de itens N de itens
Retas 03 Retas no plano 03
ngulos 01 ngulos 01
Figuras planas 14 Figuras planas 18
Geometria
Figuras espaciais 06 Figuras tridimensionais 07
Nmeros naturais e operaes
inteiros, racionais e reais
01
Nmeros naturais e operaes inteiros,
racionais e reais
01
Nmeros inteiros e operaes 01 Nmeros inteiros e operaes 02
Nmeros racionais e
operaes
09
Nmeros racionais e irracionais e
operaes
12
Nmeros
Operaes algbricas 06 Operaes algbricas 04
Estatstica
Noes de proporcionalidade,
porcentagem e juros
13
Noes de proporcionalidade,
probabilidade, porcentagem e juros
03
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 71
A comparao da dificuldade de tais itens entre esses anos (1997 e
1999) mostra que, de modo geral, ela se repete nos mesmos contedos.
Considera-se esse dado de extrema relevncia, pois os itens construdos
para medir essas habilidades so considerados bons pedagogicamente; no
entanto, se os alunos no conseguem resolver essas questes, podem ser
levantadas hipteses que vo desde a falta de informaes bsicas dos
alunos para processarem elementos mais elaborados, passando pela
imaturidade dos mesmos para o desenvolvimento dessas habilidades, at a
falta de domnio desses contedos por parte dos professores.
Uma vez que os itens analisados compem as provas de avaliao
de um sistema nacional, e so constatadas recorrncias de dificuldades em
determinadas reas, alguma interveno pode ser feita. Por exemplo, com a
adoo de polticas pblicas que envolvam maior investimento na
formao de professores, enfocando determinados contedos e, at,
polticas educacionais que implementem uma extenso do tempo destinado
s aulas de Matemtica.
6.2.2.3 Anlise da discriminao dos itens
A anlise da discriminao dos itens foi realizada considerando-se
os ndices da correlao bisserial, ou seja, a correlao item-total, para cada
item. Os resultados mostraram que esses coeficientes apresentaram-se ruins
quando havia algum problema com a construo do item, ou quando o
conhecimento exigido para solucionar a questo no era de domnio de
quem, supostamente, o sabia. Na prova de 1997, 10 itens apresentaram
correlao bisserial menor que 0,20 e, na prova de 1999, 16 itens
apresentaram esse intervalo.
6.2.2.4 Anlise fatorial dos itens
A anlise fatorial mostra o grau com que cada item contribui para a
mensurao do fator nico. Itens com cargas fatoriais menores que 0,32 no
contribuem para a unidimensionalidade da prova (Tabachnick, Fidel, 1996).
Tal fato implica na excluso desses itens do conjunto. As cargas
apresentadas foram geradas por meio da anlise fatorial full information.
Na prova de 1997, 25 itens apresentaram cargas fatoriais menores
que 0,32, enquanto a de 1999 apresentou 24 itens com tal caracterstica. O
item que apresentou a carga fatorial mais alta, na prova de 1997, foi 0,76,
enquanto na prova de 1999 foi 0,77.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 72
6.2.2.5 Anlise dos parmetros da TRI
Conforme j foi dito anteriormente, a anlise da TRI est baseada no
pressuposto de que o desempenho de um examinando em um teste pode
ser predito ou explicado por um conjunto de fatores chamados traos
latentes ou habilidades. Estes devem refletir o relacionamento verdadeiro
entre variveis no observveis (habilidades) e variveis observveis
(respostas aos itens). A anlise da TRI importante porque a unidade de
anlise o item e no o teste, como na TCT. Na TRI, os parmetros do item
e da habilidade so considerados invariantes.
Observou-se que os resultados apresentados pela TRI coadunam-se
melhor com a anlise pedaggica dos itens. Todas as anlises realizadas
fornecem indicadores importantes da qualidade dos itens dentro de suas
especificidades, mas a anlise dos parmetros da TRI que reflete melhor
as especificaes pedaggicas do item.
Os critrios adotados para o julgamento dos parmetros da TRI
foram os seguintes: para o parmetro a, itens com ndices abaixo de 0,60
foram considerados com discriminao ruim; para o parmetro b,
considerando-se a populao pesquisada (8 srie), itens com ndices acima
de 2,00 foram considerados mais difceis e abaixo de 2,00, mais fceis,
podendo, no entanto, ocorrer; para o parmetro c, itens com ndices
maiores que 0,30 foram considerados como aqueles que possuem alta
probabilidade de acerto ao acaso. A Tabela 11 mostra a porcentagem do
nmero de itens que apresentaram problemas associados a cada parmetro
e prova.
Tabela 11 Porcentagem do nmero de itens que apresentam problemas
em parmetros da TRI
Edio Parmetro a Parmetro b Parmetro c
1997 4,0 17,0 4,0
1999 7,0 14,0 5,0
Nota-se que, de um modo geral, os maiores problemas surgiram em
torno do parmetro b.
Ele um parmetro de localizao ou de dificuldade do item, que
indica a posio da CCI em relao escala de habilidade. Quanto maior o
valor do parmetro b, maior a habilidade requerida para que um
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 73
examinando d uma resposta correta e, ao contrrio, quanto menor o valor
do parmetro b, menor a habilidade requerida para o examinando
acertar o item. Os resultados da anlise desse parmetro ratificam os
anteriores. Tanto a anlise pedaggica de adequao dos itens srie
quanto a dos ndices de dificuldade gerados pela TCT j haviam detectado
esse problema: os itens, de maneira geral, se apresentaram difceis para a
populao avaliada. Os resultados apresentados na Tabela 11 referem-se
aos parmetros maiores que 2,00, pois no foram apresentados itens com
ndices menores que -2,00. Dessa forma, constata-se que um nmero
significativo de itens exigia um elevado grau de proficincia para a sua
resoluo.
O parmetro a chamado parmetro de discriminao e
proporcional inclinao da CCI no ponto bi da escala da habilidade. Itens
com inclinaes mais altas so mais teis para discriminar os diferentes
nveis de habilidade dos examinandos. Na prova de 1997, apenas 4% dos
itens no apresentaram um alto poder de discriminao. Na prova de 1999,
esse percentual foi de 7%.
O parmetro c representa a probabilidade de examinandos com
baixa habilidade responderem corretamente ao item. A porcentagem de
itens com essa caracterstica, na prova de 1997, foi de 4%. Na prova de 1999,
o percentual foi de 5%.
CONSIDERAES FINAIS
A cultura da avaliao educacional no Brasil est, ainda, em fase de
desenvolvimento, contudo tem alcanado importantes conquistas. O
Ministrio da Educao, responsvel pela conduo da poltica educacional
do pas, vem implementando sistemas de avaliao nos diversos nveis de
ensino, como o Sistema Nacional de Avaliao do Ensino Superior (Sinaes),
o Exame Nacional de Estudantes do Ensino Mdio (Enem), e o Exame
Nacional de Certificao de Competncias para o Ensino de Jovens e
Adultos (Encceja). Em conseqncia, vrios Estados e alguns municpios,
consoante orientao tcnica dos rgos centrais, vm adotando seus
prprios sistemas de avaliao. Esta iniciativa traz, em seu bojo, a mudana
do foco da investigao sobre as polticas educacionais praticadas em todos
os nveis da educao brasileira. Isto alavanca as mudanas de rumo da
educao e alinha o Brasil com os pases que j desenvolvem tecnologias
educacionais de ponta.
O Saeb, como sistema responsvel pela avaliao da educao
bsica brasileira, tem se esforado para disseminar essa prtica da maneira
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 74
mais competente possvel. Como j foi exposto anteriormente, a sua funo
obter dados sobre a qualidade do ensino ao longo do tempo, identificar os
fatores que contribuem para a ocorrncia dos resultados e intervir no
sistema educativo, visando melhoria da qualidade da educao bsica do
Brasil. Para alcanar esse intento, vrios instrumentos so desenvolvidos.
Dentre todos, o que avalia o desempenho dos alunos a prova constitui-
se no mais importante, pois ela que fornece informaes sobre o estgio
de desenvolvimento dos estudantes.
Partindo-se da premissa de que a construo e a anlise desses
instrumentos garantiro a fidelidade dos dados informados a respeito da
realidade educacional brasileira, as provas tm, portanto, o dever de
comprovar a sua objetividade, confiabilidade e qualidade. O presente
estudo procurou demonstrar que um modelo de anlise fundamentado em
aspectos psicomtricos e pedaggicos integrados poder ser uma
importante e confivel referncia de informaes da qualidade da educao
brasileira.
O Saeb dispe de dados que subsidiam uma escolha mais adequada
de itens; no entanto, as anlises apontam que deve-se tomar mais cuidado
no que se refere distribuio de contedos. Problemas como os detectados
neste estudo, que revelam que cerca de 49% dos itens da prova de
Matemtica de 1999 8 EF contemplaram o tema Geometria, devem
ser evitados, tendo em vista a concentrao de um s tema, problema que
se torna ainda mais grave, pois as habilidades relacionadas a tal tema so
pouco desenvolvidas em sala de aula.
Outro problema a ser evitado, e que pode ser constatado antes da
montagem das provas, com relao ao nvel mdio de dificuldade. A
prova de 1997 apresentou um nvel mdio de 38%, e a prova de 1999 de
42%. Os altos nveis de dificuldade constituem-se em fator negativo para as
provas de avaliao de sistemas, pois esses testes mostraram-se muito
difceis para a populao amostrada. A literatura tem indicado que os
nveis mdios ideais de dificuldade devem estar em torno de 50,0 a 60,0,
garantindo uma maior variabilidade.
Uma anlise que d bastante informao, e que no de uso
corrente na avaliao do Saeb, a Anlise Grfica de Itens. Essa anlise,
juntamente com a anlise bisserial das alternativas de cada item e a anlise
pedaggica dos distratores, d pistas sobre os processos cognitivos
utilizados pelos alunos para responderem ao item, e pode fornecer
subsdios para discusses pedaggicas.
Ao final da pesquisa, constatou-se que estudos a respeito do
desenvolvimento cognitivo do aluno para a compreenso do
comportamento de respostas aos itens das provas devem ser levados em
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 75
conta. Esses aspectos precisam ser observados desde a construo do item
at a anlise de seus resultados. No basta que ele apresente todas as
caractersticas estruturais de um bom item. imperativo ter em mente para
quem este item est sendo construdo.
Retomando o objetivo do Saeb, espera-se que o modelo de anlise
de provas apresentado neste estudo Modelo Integrado das Anlises
Pedaggicas e Psicomtricas contribua para a fidelidade dos dados que
procuram retratar a realidade educacional observada e as informaes
disseminadas.
REFERNCIAS BIBLIOGRFICAS
ANASTASI, A.; URBINA, S. Testagem Psicolgica. Porto Alegre: Artmed,
2000
BEATON, A. E.; JOHNSON, E. G.; FERRIS, J. J. The assignment of
exercises to students. In: BEATON, A. E. Implementing the new design: the
NAEP 1983-1984 technical report. Princeton, NJ: Educational Testing
Service, 1987. p.97-118.
BLOOM, B. S.; HASTINGS, J. T.; MADAUS, G. F. Handbook on Formative
and Summative Evaluation of Student Learning. New York: McGraw-Hill,1971.
BOCK, R. D.; GIBBONS, R.; MURAKI, E. Full-information item factor
analysis. Applied Psychological Measument, n.12, p. 261-280, 1988.
HAMBLETON, R. K.; SWAMINATHAN, H. Item Response Theory:
Principles and Applications. Boston: Kluwer. Nijhoff Publishing, 1995.
HAMBLETON, R. K.; SWAMINATHAN, H.; ROGERS, H. J. Fundamentals
of Item Response Theory. Newbury Park, California: Sage Publications, 1991.
KIRSCH, I. S.; JUNGEBLUT, A. Literacy: Profiles of Americans young
adults. Princeton, NJ: Educational Testing Service, 1986.
KLEIN, R. Utilizao da Teoria de Resposta ao Item no Sistema Nacional
de Avaliao da Educao Bsica (Saeb). Ensaio: Avaliao e Polticas
Pblicas em Educao, Rio de Janeiro, v. 11, n. 40, p. 283-296, jul./set. 2003.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 76
LAROS, J. A.; PASQUALI, L.; RODRIGUES, M. M. M. Anlise da
unidimensionalidade das provas do Saeb. Braslia: Centro de Pesquisa em
Avaliao Educacional. Universidade de Braslia, 2000. (Relatrio Tcnico)
MARSHALL, J. C.; HALES, L. W. Essentials of testing. Reading, M. A.:
Addinson-Wesley, 1972.
McINTIRE, S. A.; MILLER, L. A. Foundations of Psychological Testing. New
York: McGraw-Hill, 2000.
MURAKI, E.; ENGELHARD, G. Full-information item factor analysis:
Applications of EAP scores. Applied Psychological Measurement, n. 9, p. 417-
430, 1985.
NUNNALY, J. C.; BERNSTEIN, I. H. Psychometric Theory. 3.ed. New York:
McGraw-Hill, 1994.
PASQUALI, L. Psicometria: teoria e aplicaes. Braslia: Editora da
Universidade de Braslia, 1997.
________. Psicometria: teoria dos testes na psicologia e na educao.
Petrpolis: Vozes, 2003.
________. Instrumentos psicolgicos: manual prtico de elaborao. Braslia:
LabPAM/IBAPP, 1999.
PESTANA, M. I. G. S. et al. Matrizes Curriculares de Referncia para o Saeb.
Braslia: MEC/Inep, 1997.
________. Matrizes Curriculares de Referncia para o Saeb. 2.ed. Rev. Ampl.
Braslia: MEC/Inep, 1999.
PIAGET, J. Biologia e Conhecimento: ensaio sobre as relaes entre as
regulaes orgnicas e os processos cognoscitivos. Petrpolis: Vozes, 1973
RODRIGUES, M. M. M. Instrumentos de avaliao educacional: uma viso
pedaggica e psicomtrica integradas estudo das provas do Saeb. Braslia,
2001. Dissertao (mestr.) em Psicometria. Instituto de Psicologia/
Universidade de Braslia.
BRASIL. Ministrio da Educao e Cultura. Sistema Nacional de Avaliao da
Educao Bsica: Saeb 1995; relatrio tcnico. So Paulo: Fundao Carlos
Chagas; Rio de Janeiro: Fundao Cesgranrio, 1996.
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 77
BRASIL. Sistema Nacional de Avaliao da Educao Bsica: Saeb 1997;
relatrio tcnico. So Paulo: Fundao Carlos Chagas; Rio de Janeiro:
Fundao Cesgranrio, 1998.
________. Sistema Nacional de Avaliao da Educao Bsica: Saeb 1999;
relatrio tcnico. So Paulo: Fundao Carlos Chagas; Rio de Janeiro:
Fundao Cesgranrio, 2000.
________. Sistema Nacional de Avaliao da Educao Bsica: Saeb 2001.
Novas Perspectivas. Braslia: MEC/Inep/DAEB, 2002.
TABACHNICK, B. G.; FIDEL, L. S. Using multivariate statistics. New York:
Harper Collins, 1996.
VAN BATENBURG, T. A.; LAROS, J. A. Graphical Analysis of Test Items.
In: Educational Research and Evaluation (An International Journal on Theory and
Practice). Lisse: Swets e Zeitlinger, 2001.
VAN DER LINDEN, W. J.; HAMBLETON, R. K. Handbook of Modern Item
Response Theory. New York: Spring-Verlag, 1997.
VIANNA, H. M. Testes em Educao. So Paulo: Ibrasa, 1982.
________. Introduo Avaliao Educacional. So Paulo: Ibrasa, 1989.
WILSON, D. T.; WOOD, R.; GIBBONS, R. TESTFACT: test scoring, item
statistics, and item factor analysis. Chicago: Scientific Software, 1991.
Recebido em: maro 2006.
Aprovado para publicao em: maio 2006
Estudos em Avaliao Educacional, v. 17, n. 34, maio/ago. 2006 78

Anda mungkin juga menyukai