Anda di halaman 1dari 19

Calidoscpio

Vol. 7, n. 1, p. 30-48, jan/abr 2009


2009 by Unisinos - doi: 10.4013/cld.2009.71.04

Matilde V.R. Scaramucci


matilde@unicamp.br

Avaliao da leitura em ingls como lngua


estrangeira e validade de construto
EFL reading assessment and construct validity

RESUMO Neste artigo, a anlise conduzida por Tumolo e Tomich


(2007) e Tumolo (2005) em itens extrados da prova de ingls do vestibular da Unicamp questionada. A anlise, conduzida como parte de
um estudo que investiga a defensibilidade de itens de trs instrumentos
de avaliao de leitura em ingls como lngua estrangeira exames
internacionais de procincia (TOEFL e IELTS), exames vestibulares
de duas universidades brasileiras (Unicamp e UFSC) e exames elaborados pelo professor em sala de aula tem a validade de construto como
seu critrio principal. Os itens so classicados em defensveis e no
defensveis. Itens defensveis, para os autores, seriam aqueles que
permitem a demonstrao da habilidade como denida no construto,
enquanto os no defensveis no permitem coletar evidncias para uma
interpretao vlida da habilidade relevante (Tumolo e Tomich, 2007,
p. 67). O argumento principal de nosso questionamento o fato de o
construto em que se baseia a anlise ser distinto daquele que fundamenta
a prova da Unicamp.

ABSTRACT In this article, the analysis conducted by Tumolo and Tomich (2007) and Tumolo (2005) on items from the English subtest of the
University of Campinas entrance examination has been questioned. The
analysis, carried out as part of a study which investigates the defensibility
of items from three different EFL assessment instruments -- international
prociency tests (TOEF and IELTS), entrance examinations of two Brazilian universities (Unicamp e UFSC) and classroom tests developed by
the teacher -- has construct validity as its main criterion. The items were
divided into defensible and non-defensible. According to the authors,
defensible items are those which allow for the demonstration of the
reading ability as described in the construct, whereas non-defensible
items do not allow for collecting evidence for a more valid interpretation
of the relevant ability (Tumolo and Tomich, 2007, p. 67). Our main
criticism is that the reading construct used for the analysis is different
from the one which underlies the Unicamp examination.

Palavras-chave: avaliao da leitura, ingls, lngua estrangeira, validade


de construto, exames vestibulares.

Key words: reading assessment, EFL, construct validity, entrance


examination.

Introduo

ensino dessa habilidade ter-se renovado com a publicao


dos PCN nos anos 1990. E, principalmente, apesar da importncia que a avaliao dessa habilidade tem em muitos
vestibulares, considerados exames de alta relevncia no
contexto brasileiro, em vista de seus impactos ou consequncias sociais e educacionais (vide Scaramucci, s.d.,
para uma discusso mais aprofundada sobre avaliao e
impactos sociais2).
Nesse sentido, Avaliando a leitura em ingls: uma
reexo sobre itens de testes, de autoria de Tumolo e Tomich (2007, p. 67-88), publicado na Revista Brasileira de
Lingustica Aplicada, baseado em Tumolo (2005)3 uma

Apesar de a avaliao em contextos de ensino/


aprendizagem de lnguas vir merecendo uma ateno
bastante grande nos ltimos anos no cenrio internacional, constituindo-se uma subrea com desenvolvimentos
importantes para a rea de Lingustica Aplicada, podemos
dizer que ainda so escassos os estudos sobre avaliao em
contextos de lnguas no Brasil1 quando comparados com
outras temticas. Quando se trata da avaliao da leitura
em ingls como lngua estrangeira, as contribuies brasileiras so ainda mais escassas, apesar do interesse pelo

H muitos anos tenho me dedicado rea de ensino e pesquisa em avaliao em contextos de ensino/aprendizagem de lnguas, estrangeira e
materna. Teses e dissertaes sobre esse tema tm sido desenvolvidas sob minha orientao no Programa de Ps-graduao em Lingustica Aplicada
da Unicamp.
2
Tema de projeto de ps-doutorado, por mim realizado na Universidade de Melbourne, Austrlia, sob a superviso de Tim McNamara.
3
O artigo baseia-se na tese de doutorado do primeiro autor (Tumolo, 2005), orientada pelo segundo, intitulada Assessment of reading in English as
a foreign language: investigating the defensibility of test items.

30a48_ART04_Scaramucci[rev_OK].indd 30

27/05/2009 18:03:44

Vol. 07 N. 01

dessas excees. No artigo, os autores discutem, luz do


conceito de validade de construto, fundamental quando
falamos de avaliao, itens selecionados de exames vestibulares, de procincia e elaborados pelo professor para
uso em sala de aula, classicando-os em defensveis
e no defensveis. Nas palavras dos autores, os defensveis permitem a demonstrao da habilidade como
denida no construto, enquanto os no defensveis no
permitem coletar evidncias para uma interpretao vlida
da habilidade relevante (Tumolo e Tomich, 2007, p. 67)
e, portanto, seriam itens que levariam a inferncias no
vlidas a respeito da habilidade em questo.
Embora relevante e esclarecedor em muitos aspectos, o artigo traz algumas questes que, a meu ver,
mereceriam um tratamento mais qualicado para que
pudessem (e retomo mais uma vez as palavras dos autores) colaborar com o desenvolvimento de testes que
possibilitem coletar evidncias para uma interpretao
mais vlida da habilidade de leitura em ingls (Tumolo e
Tomich, 2007, p. 70) e contribuir no sentido de trazer uma
reexo sobre o desenvolvimento de testes de tal forma
a possibilitar o incremento das atividades de avaliao
(Tumolo e Tomich, 2007, p. 86) no Brasil.
Ao classicar itens de trs modalidades de exames
em defensveis e no defensveis e, sobretudo, ao identicar a origem desses itens principalmente vestibulares
nacionais e exames de procincia internacionais importantes, tais como TOEFL e IELTS4 os autores sugerem
que os resultados das provas que contm esses itens no
sejam vlidos, o que bastante comprometedor para
esses exames. Entretanto, quando se trata de processos
de validao, sabemos que o mtodo de julgamento de
especialista utilizado pelos autores limitado, o que faz
com que as anlises nele baseadas sejam provisrias e
parciais, at que argumentos contrrios a refutem. Alm
disso, como amplamente reconhecido na rea e tambm
pelos prprios autores, validade uma questo de grau,
no uma coisa de tudo ou nada. A validade da interpretao e a ao baseada nos itens sero relativos fora
da argumentao, sendo mais vlido ou menos vlido em
relao a todos os argumentos apresentados (Tumolo,
2005, p. 236).
Neste artigo, portanto, organizado em seis partes,
alm desta introduo e das consideraes nais, retomamos alguns dos exemplos analisados no referido artigo,
questionamos aspectos da anlise conduzida e os rediscutimos, tambm luz do conceito de validade de construto,
que apresentamos a seguir. Nossa anlise focaliza itens

jan/abr 2009

citados pelos autores como no defensveis extrados


da prova de ingls do exame vestibular da Universidade
Estadual de Campinas (Unicamp).
O conceito de validade: viso tradicional
Uma das questes que tem mobilizado grande
parte dos tericos da avaliao nos ltimos anos a busca
de um entendimento mais preciso do que se convencionou chamar de testes ou avaliao5 de desempenho. As
discusses motivadas pela complexidade dos fatores
envolvidos nesse conceito foram to intensas a ponto de
determinarem reformulaes no apenas das vises de
linguagem e de procincia subjacentes s avaliaes
tradicionais, mas, principalmente, dos conceitos utilizados
como parmetros para avaliar a qualidade/aceitabilidade
desses instrumentos.
Como consequncia, pudemos presenciar, a partir
dos anos 1990, uma verdadeira revoluo no conceito de
validade/validao que, entretanto, no ocorreu repentinamente, uma vez que suas bases foram estabelecidas de
forma gradativa, a partir de contribuies de tericos distintos durante os anos 80. Algumas publicaes, ocorridas
a partir de 1985, foram decisivas para o que se poderia
chamar uma nova teoria de validade: o cdigo ocial de
prtica prossional nos Estados Unidos (AERA/APA/
NCME6 Standards for Educacional and Psychological
Testing ou AERA/APA/NCME, 1985); e os trabalhos de
Cherryholmes (1988), Moss (1992) e Wiggins (1993),
por questionarem as bases loscas da viso tradicional,
retomadas no artigo seminal de Messick (1989) intitulado
Validade, publicado na terceira edio do Handbook of
Educational Measurement (Chapelle, 1999).
Tradicionalmente, validade tem sido denida como
uma caracterstica ou qualidade de um teste, um critrio
para sua aceitabilidade. Se examinarmos as denies
em livros que trazem noes bsicas de avaliao, publicados nos anos 80, encontraremos denies como a de
Hughes (1989): um teste vlido se mede precisamente
aquilo que deve medir. Essa viso, entretanto, tambm
pode ser observada naqueles publicados nos anos 1990,
como Alderson et al. (1995), que retoma a denio de
Henning (1987, p. 96):
Validade em geral refere-se adequao de um teste ou de
algum de seus componentes como uma medida do que esse
teste deve medir. Um teste vlido no grau em que mede o
que deve medir. Assim, o termo vlido, quando usado para
descrever um teste, deve geralmente vir acompanhado pela

Os exemplos do IELTS so discutidos apenas em Tumolo (2005) e no em Tumolo e Tomich (2007).


Testes so instrumentos formais de avaliao; apesar de incluir testes, a avaliao um processo mais amplo e no est limitada a eles. Neste
trabalho, exames e testes so considerados sinnimos.
6
American Educational Research Association, American Psychological Association e The National Council on Measurement in Education,
respectivamente.
5

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 31

31

27/05/2009 18:03:45

Calidoscpio

preposio para. Qualquer teste, dessa forma, pode ser vlido


para alguns propsitos, mas no para outros (Henning, 1987 in
Alderson et al., p. 89)7.

Frequentemente, a validade tem sido abordada em


relao conabilidade, mas, algumas vezes, tambm
praticidade, ambas tambm vistas como qualidades de
um teste. Este no pode ser vlido sem antes ser convel (consistente e estvel), uma vez que para ser vlido
necessita avaliar com preciso e de forma consistente.
Se uma prova corrigida por dois corretores e as notas
obtidas so completamente distintas (10 e 0), por exemplo,
que resultado devemos tomar como evidncia daquilo
que pretendemos avaliar? Um teste convel pode no
ser vlido, entretanto. Um teste de produo escrita em
lngua estrangeira que solicita aos candidatos escreverem a
traduo de 500 palavras em sua lngua materna (Hughes,
1989) pode ser considerado um teste convel, mas est
longe de ser vlido, na medida em que escrever em lngua
estrangeira muito mais do que apenas traduzir palavras.
Um teste de desempenho de produo escrita que, por
outro lado, tem por objetivo a redao de um texto pode
ser vlido, embora no necessariamente convel, se no
forem estabelecidos critrios claros para a correo, se os
corretores no forem treinados para a tarefa, e assim por
diante. Dessa forma, um aumento de validade geralmente
leva a uma diminuio de conabilidade e vice-versa,
revelando a tenso existente entre os dois parmetros.
Embora vrios tipos de validade tm sido, tradicionalmente, reconhecidos na literatura, na medida em que
ela pode ser estabelecida atravs de diferentes mtodos,
no parece haver concordncia quanto aos termos e denies. Hughes (1989), por exemplo, refere-se validade
de construto, de contedo, relacionada a critrio (que
pode ser preditiva ou paralela) e de face.
Alderson et al. (1995), por sua vez, embora,
seguindo Thorndike e Hagen (1986), saliente trs tipos
principais de validade racional, emprica e de construto
prefere usar os termos interna, externa e de construto.
Como o nome diz, interna tem a ver com os estudos que
analisam o contedo do teste e seu efeito percebido, enquanto externa relaciona-se aos estudos que comparam
as notas obtidas com medidas externas da competncia/
capacidade avaliada e, portanto, so correlacionais. Dentro
do conceito de validade interna so discutidas as validade

de face, de contedo e de resposta e, no de validade externa, os conceitos de paralela e preditiva. Um terceiro


tipo ainda seria a validade de construto, que Alderson
et al. (1995) tratam separadamente, por ser, segundo os
autores, a mais complexa de explicar e uma espcie de
termo superordenado, para o qual contribuem as validades
externa e interna.
Uma denio breve de validade de construto
fornecida por Gronlund (1985, p. 58 in Alderson et al.
1995, p. 183) seria o grau em que o desempenho em um
teste pode ser interpretado como uma medida signicativa
de uma determinada caracterstica ou qualidade. Uma
denio mais completa fornecida por Ebel e Frisbie
(1991, p. 108)8:
O termo construto refere-se a um construto psicolgico, uma
conceitualizao terica sobre um aspecto do comportamento
humano que no pode ser medida ou observada diretamente.
Exemplos de construtos so inteligncia, motivao para o
rendimento, ansiedade, rendimento, atitude, dominncia e
compreenso em leitura. Validao de construto o processo
de coleta de evidncia para dar apoio ao argumento de que um
teste realmente mede o construto psicolgico que os elaboradores querem que mea. O objetivo, nesse caso, determinar o
signicado dos escores ou notas do teste para garantir que eles
signiquem o que o especialista esperava que signicassem.

O processo de validao visto como uma atividade de pesquisa, atravs da qual teorias so testadas e
conrmadas, modicadas ou abandonadas.
O conceito de validade: viso moderna
ou expandida
A crtica principal ao conceito tradicional de validade era o fato de ser fragmentado e incompleto, elaborado
exclusivamente por especialistas em medidas, seguindo
uma viso essencialmente psicomtrica e, como tal, no
levar em conta, como base para a ao, as implicaes
de valor do signicado dos resultados ou escores, nem as
consequncias sociais do uso desses resultados, ou seja,
a dimenso social e poltica que devia estar presente na
avaliao de lnguas pelo fato de ser uma prtica social.
O novo conceito, embora contemplando mltiplas facetas,
unica-se em torno da validade de construto, passando a
considerar no apenas bases evidenciais, mas tambm as
consequenciais, como veremos mais adiante.

7
Validity in general refers to the appropriateness of a given test or any of its component parts as a measure of what it is purported to measure. A
test is said to be valid to the extent that it measures what is supposed to measure. It follows that the term valid when used to describe a test should
usually be accompanied by the preposition for. Any test then may be valid for some purposes, but not for others (Henning, 1987 in Alderson et
al., p. 89).
8
The term construct refers to a psychological construct, a theoretical conceptualisation about an aspect of human behaviour that cannot be
measured or observed directly. Examples of constructs are intelligence, achievement motivation, anxiety, achievement, attitude, dominance, and
reading comprehension. Construct validation is the process of gathering evidence to support the contention that a given test indeed measures the
psychological construct the makers intend it to measure. The goal is to determine the meaning of scores from the test, to assure that the scores mean
what we expect them to mean (Ebel e Frisbie, 1991, p. 108).

32

30a48_ART04_Scaramucci[rev_OK].indd 32

Matilde V.R. Scaramucci

27/05/2009 18:03:45

Vol. 07 N. 01

Para Messick (1989), responsvel pela revoluo


do conceito, validade pressupe um julgamento que considera o grau em que explicaes tericas e evidncias
empricas conrmam a adequao das interpretaes e
aes baseadas nos escores dos testes ou de outras formas
de avaliao. Validade, portanto, no uma propriedade
do teste ou da avaliao, mas do signicado dos seus
resultados. Importante, nesse caso, o argumento de
validade (Mislevy et al., 2003; Bachman, 2005), que
tem como objetivo coletar informaes a favor ou contra
uma determinada interpretao dos escores do teste. O
que validado, portanto, no o teste, mas as inferncias
derivadas dos resultados ou de outros indicadores, assim
como as implicaes para a ao determinadas pela interpretao.
Messick identifica duas fontes de ameaa validade dos instrumentos de avaliao: sub-representao do construto e varincia irrelevante ao construto.
Enquanto a primeira compromete a autenticidade, a
segunda compromete a caracterstica do teste de ser
direto (directness). As avaliaes autnticas testes
de desempenho so autnticos , portanto, implicam
tarefas envolventes, que valem a pena realizar, aplicadas em cenrios realistas ou contendo simulaes
prximas s tarefas que acontecem na vida real, tanto
em termos de tempo como de recursos. Como a maior
preocupao, nesse caso, que nada seja deixado de
lado, essas tarefas satisfazem o padro de mnima
sub-representao do construto (vide Arajo 2007,
para uma discusso sobre o conceito de autenticidade nas avaliaes em lngua estrangeira). Da mesma
forma, o fato de serem diretas ou abertas, uma vez
que o avaliado pode responder sem estar contido pelo
tipo de formato ou de mtodo 9, que poderia introduzir
fatores contaminantes, faz com que as avaliaes de
desempenho satisfaam outro padro de validade, ou
seja, no conter varincia irrelevante ao construto
(Scaramucci, 2007).
No primeiro caso, teramos um exame que, por ser
denido de forma estreita, deixaria de incluir dimenses
importantes do construto focal (sub-representao do
construto). Como exemplo, poderamos citar um teste
de leitura que contempla itens que avaliam localizao
de informaes, deixando de lado aqueles que avaliam
a capacidade de fazer inferncias; ou ainda um teste de
procincia geral que focaliza apenas a competncia
lingustica a partir de itens de mltipla escolha, deixando
de avaliar a competncia comunicativa na interao face

jan/abr 2009

a face. Nesse segundo caso, alm da sub-representao da


competncia comunicativa, teramos tambm diculdades
relativas ao mtodo de mltipla escolha, implicando possivelmente macetes para resolv-las (varincia irrelevante
ao construto). Os dois testes teriam menores chances de
exercer impactos positivos10. No processo de validao,
portanto, o que necessitamos coletar evidncias que
permitam balancear essas duas ameaas validade de
construto desse teste.
Retomando os exemplos acima, podemos dizer,
portanto que, o fato de o teste de leitura acima mencionado no incluir itens que avaliam a inferncia de
sentidos a partir do contexto, mas apenas habilidades
de localizao das informaes explcitas poderia ser
interpretado por professores que ler signica apenas
localizar informaes explcitas, incentivando prticas em que as habilidades sub-representadas estaro
ausentes11. No caso do teste de procincia geral, que
enfatiza o conhecimento da gramtica atravs de itens
de mltipla escolha, haveria chances de os professores
passarem a dar mais ateno s diculdades envolvidas
na resoluo de itens de mltipla escolha de gramtica
do que ao desenvolvimento da competncia comunicativa propriamente dita.
No novo conceito de validade, Messick (1989)
identica seis diferentes tipos de evidncia ou mtodos
para investigar hipteses, que passam a substituir as trs
validades (interna, externa e de construto) do conceito
tradicional. So elas: evidncias relativas ao contedo,
substantiva, estrutural, passvel de generalizao, externa
e consequencial.
A Tabela 1, extrada de Chapelle (1999, p. 258),
apresentada a seguir, elucidativa das mudanas ocorridas
no conceito de validade.
Para caracterizar melhor a proposta moderna de
validade verdadeiro paradigma para a discusso da
pesquisa e prtica em medidas educacionais e psicolgicas
, apresentamos o que tem sido citado como a matriz
progressiva de Messick.
Essa matriz oferece diretrizes no sentido de orientar
como evidncias podem ser produzidas ou o que constituem mtodos para validao. Alm disso, permite avaliar
no apenas os testes, mas tambm suas consequncias
ou impactos sociais. Podemos observar que a dimenso
social da avaliao est representada em duas das clulas
da matriz: naquela que considera as implicaes de valor,
focalizando o carter social e cultural dos signicados
atribudos aos escores do teste; e naquela que leva em

9
Mtodos so meios de se avaliar. A mltipla escolha e o resumo, por exemplo, so mtodos de avaliao de compreenso em leitura. Todo mtodo
tem efeitos contaminantes.
10
As questes sobre impacto/efeito retroativo no sero tratadas neste texto.
11
No podemos nos esquecer que a prtica do professor tem se fundamentado, em geral, em uma viso de leitura como decodicao e, portanto,
o exame, nesse caso, poderia reforar essa prtica.

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 33

33

27/05/2009 18:03:45

Calidoscpio

Tabela 1. Resumo dos contrastes entre as concepes de validao tradicional e contempornea (Chapelle, 1999, p. 258).
Table 1. Summary of the contrasts between the traditional and modern views of validity (Chapelle, 1999, p. 258).
Tradicional

Contempornea

Considerada uma caracterstica de um teste: o grau em


que um teste mede aquilo que pretende medir.

Validade um argumento relativo interpretao e


uso: o grau em que as interpretaes e usos de um teste
podem ser justicados.

Conabilidade era vista como distinta e uma condio


necessria para validade.

Conabilidade pode ser vista como um tipo de evidncia


de validade.

A validade era frequentemente estabelecida atravs de


correlaes de um teste com outros.

Validade argumentada com base em um nmero


de tipos de justicativas e evidncias, incluindo as
consequncias da avaliao.

Validade de construto era vista como um dos trs tipos de


validade (contedo, relacionada a critrio e construto).

Validade um conceito unitrio, em que a validade


de construto ocupa uma posio central: validade de
contedo e relativa a critrio podem ser usadas como
evidncia sobre validade de construto.

O estabelecimento da validade era uma tarefa de responsabilidade de pesquisadores da avaliao, responsveis pelo desenvolvimento de testes de grande
escala e alta relevncia.

A justicativa de validade de um teste de responsabilidade de todos os usurios de um teste.

Tabela 2. Matriz progressiva de Messick (1989, p. 20).


Table 2. Messicks progressive matrix (1989, p. 20).
Inferncias

Usos

Base evidencial

Validade de construto

Validade de construto +
Relevncia/utilidade

Base consequencial

Validade de construto +
Implicaes de valor

Validade de construto+
Implicaes de valor+
Relevncia /utilidade+
Consequncias sociais

conta as consequncias sociais relativas ao uso prtico


dos testes12.
Torna-se desnecessrio dizer que a viso de
Messick no consensual, embora endossada por
muitos, dentre os quais podemos destacar Kane
(2001), Linn (1997) e Shepard (1997). H, entretanto
outros, dentre os quais Mehrens (1997) e Popham
(1997) que, apesar de reconhecerem a importncia
das evidncias obtidas a partir de estudos sobre efeito
retroativo/impactos sociais, no as consideram parte
de um conceito de validade. Por outro lado, h ainda
outros (McNamara e Roever, 2006, por exemplo) que
consideram tmida a forma como Messick incorpora

as consequncias e valores sociais/culturais em seu


conceito de validade. Na opinio do autor, a considerao das consequncias sociais parece andar na
contramo da teoria de validade, que ainda permanece
calcada, em grande parte, pelos princpios decorrentes
de suas origens no campo da psicologia, individualista
e cognitivamente orientado. Para ele, um problema que
Messick nunca parece ter resolvido a relao entre
as duas dimenses menos socialmente orientadas da
linha superior da matriz e as duas dimenses da linha
inferior, o que permanece como uma das questes
fundamentais da rea (vide Scaramucci, s.d., para uma
discusso dessa questo).

12

Essa matriz, por exemplo, foi utilizada nos estudos de Kunnan (1999) e Hamp-Lyons e Lynch (1998) para mostrar a partir de uma anlise dos
processos de validao conduzidos nos ltimos anos em prticas de lngua estrangeira e segunda lngua que, praticamente dez anos aps o novo
conceito de validade ter sido proposto, os mtodos de validao, pelo menos at o nal dos anos 1990, ainda se concentravam na Interpretao do
teste com base na categoria de base evidencial, enquanto pouqussima ateno tinha sido dada s outras categorias (Chapelle, 1999).

34

30a48_ART04_Scaramucci[rev_OK].indd 34

Matilde V.R. Scaramucci

27/05/2009 18:03:46

Vol. 07 N. 01

O construto leitura e sua avaliao


Tendo apresentado a viso expandida ou moderna
de validade, voltamos nossa ateno neste momento para
a introduo do artigo de Tumolo e Tomich (2007, p. 69),
onde apresentada a pergunta de pesquisa que fundamenta
sua anlise para a classicao de itens em defensveis e
no defensveis: os itens usados possibilitam coletar evidncias para interpretao sobre habilidade em leitura em
ingls como lngua estrangeira? Logo a seguir, na seo
seguinte, apresentam a denio do construto leitura a ser
usado para nossa anlise de itens de testes que objetivam
avaliar a habilidade de leitura em ingls. O construto
apresentado em termos de componentes -- seguindo Gagn
et al. (1993) e Hutchins (1987) a compreenso da microestrutura, a identicao do esquema global, a aplicao
de macro-regras para generalizar e condensar a uma representao da macroestrutura, e, por m, a expresso dessa
macroestrutura em um texto coerente (Tumolo e Tomich,
2007, p. 73). Apesar de listarem esses componentes, no
apresentam uma denio operacional de leitura: anal, o
que entendem como o ato de ler? Como esses componentes
se interrelacionam? Para que esse construto possa ser utilizado, ele teria de ser mais bem explicitado. Um construto
pressupe uma concepo, nesse caso, de leitura.
Entretanto, esse no o aspecto que mais chama a
ateno no artigo e nem o foco de nossos comentrios. O
seu maior equvoco est, a nosso ver, no fato de os autores
estabelecerem um construto para avaliar itens de testes que
no foram elaborados com base nesse construto, mas sim
em construtos distintos, que no so discutidos ou sequer
apresentados. O que os autores parecem sugerir que o
construto leitura universal e independente da situao
de avaliao. Pode-se observar uma contradio no seu
prprio texto na medida em que, ao discutirem o processo
de elaborao de um teste, armam:
O primeiro estgio, planejamento, envolve a denio do que se
quer medir, as especicaes norteadoras do desenvolvimento
de um teste. Faz-se, assim, necessria a denio do construto,
entendido como o conjunto de habilidades e/ou conhecimentos
que pode ser plausivelmente argumentado e/ou teoricamente
justicado [nfase nossa] como esperado (Tumolo e Tomich,
2007, p. 68).

Ainda na mesma pgina:


As perguntas a serem feitas em um processo de investigao
de validade de construto devem se basear na seguinte pergunta
geral: em que medida os itens do teste permitem demonstrar
habilidades e/ou conhecimentos representativos e/ou relevantes
em relao ao construto? [...] ser que os itens no esto associados a um construto que no seja aquele denido durante os
estgios de elaborao do teste [nfase nossa] mas sim, a um
construto alternativo? (Tumolo e Tomich, 2007, p. 68).

Como os prprios autores reconhecem, o construto


que deve servir de base para avaliar os itens o construto

jan/abr 2009

denido durante os estgios de elaborao do teste, e no


um construto externo. Nesse caso, como j salientei antes
retomando Ebel e Frisbie (1991, p. 108), construto referese [...] a uma conceitualizao terica sobre um aspecto
do comportamento humano que no pode ser medida ou
observada diretamente. Construto, portanto, no universalmente compartilhado, mas denido localmente, situado,
uma construo, uma teorizao que, como os prprios
autores sugerem, deve ser argumentado e teoricamente
justicado.
O entendimento do que um construto est na
base do ato de avaliar. Vale lembrar que avaliaes em
geral so baseadas em inferncias sobre um determinado
critrio, visto como o conjunto de comportamentos que se
deseja avaliar. Esses comportamentos so subsequentes a
um teste e, portanto, no observveis. A nica maneira de
torn-los observveis caracteriz-los para que possam
ser simulados ou representados, sempre de forma amostral,
na elaborao do instrumento. Os dados de desempenho
observados a partir da aplicao do teste sero usados para
fazermos inferncias sobre o critrio, permitindo observar
o que antes no era observvel (McNamara, 2000).
importante, portanto, uma distino clara entre o critrio,
ou seja, o comportamento comunicativo na situao alvo
que se quer avaliar (leitura, por exemplo) e o teste ou
instrumento para avali-lo.
Apesar de realistas, entretanto, as situaes de
avaliao no so reais, porque sempre sero situaes
de avaliao, que somente podero ser consideradas
reais pelo fato de ocorrerem na vida real. importante
ressaltar, entretanto, que mesmo quando testes simulam
comportamentos do mundo real leitura de um artigo
de jornal, simulao de uma conversa com um paciente,
assistir uma palestra salienta McNamara (2000, p. 7-8),
no so os desempenhos em si que so importantes, mas
sim, as informaes que fornecem em relao ao desempenho do avaliado em tarefas semelhantes ou relacionadas
quelas da vida real.
Aparentemente o que usado pelos autores para
justicarem sua anlise o fato de os trs tipos de testes
analisados (testes de procincia, de entrada ou vestibulares e testes de rendimento preparados pelo professor para a
sala de aula) avaliarem a leitura em situaes semelhantes,
ou seja, leitura de textos expositivos com o propsito de
estudos, que a situao de uso da lngua alvo para as trs
situaes de avaliao, ou seja, o critrio. Entretanto, esse
pressuposto explicitado em Tumolo (2005) equivocado, porque mesmo se tratando de situaes semelhantes,
no necessariamente o construto o mesmo.
Uma prova de procincia em leitura para a psgraduao, por exemplo, no tem necessariamente que ser
congurada de forma semelhante a uma prova de procincia em leitura em exames de procincia geral como
TOEFL e IELTS, que por sua vez tambm distinta de
uma avaliao de leitura em um teste de entrada, como o

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 35

35

27/05/2009 18:03:46

Calidoscpio

caso dos vestibulares. Cada uma das diferentes funes da


avaliao ou tipos de exames (entrada, procincia geral,
procincia especca, testes de sala de aula) pode ter
contedos distintos com conguraes tambm distintas
de sub/habilidades e/ou conhecimentos e procedimentos
distintos de elaborao: o construto leitura, portanto, teria
que ser denido de acordo com a funo do exame e da
situao a que se prope. Alm disso, o construto envolve
valores culturais e at mesmo o mtodo de avaliar, como
mostrarei mais adiante.
Outro aspecto que fragiliza a anlise de Tumolo e
Tomich (2007, p. 73) reconhecido pelos prprios autores:
As anlises aqui feitas no so baseadas em itens testados em
situaes reais ou simulaes, mas, sim em balano de argumentos, procedimento de investigao de validade de natureza
mais interpretativa, defendido por autores como Kane (1992)
e Chapelle (1994, 1999). Elas tm por objetivo propiciar uma
reexo que auxilie o processo de desenvolvimento de itens
que permitem interpretaes e aes mais vlidas em relao
ao construto.

Embora concordemos que a validao de um exame um processo de coleta de evidncias relevantes s


inferncias e hipteses do argumento interpretativo, no
podemos deixar de salientar que esse processo em geral
conduzido durante a elaborao de um teste pelo prprio
elaborador, a partir de suas especicaes. Embora uma
anlise crtica de pontos fracos ou problemticos seja
parte importante das evidncias em um processo de validao, ela nunca nal ou conclusiva, porque argumentos
contrrios para justicar esses aspectos considerados
problemticos podem ser levantados. Nesse caso em especial, observamos que a anlise dos autores feita com
dados escassos; faltam informaes importantes sobre o
desempenho dos candidatos, critrios e procedimentos de
correo, entre outros.
Ainda outro aspecto que merece destaque o fato de
o artigo discutir itens de maneira descontextualizada, sem
analis-los no conjunto de itens que compem uma prova13.
Para que esta possa ser uma amostra representativa do que
se deseja avaliar, ela congurada de forma a contemplar os
vrios aspectos importantes do construto. Descontextualizlos signica perder informaes valiosas.
Feitas essas colocaes, passamos a seguir discusso do que os autores consideram como itens defensveis e no defensveis.
Itens defensveis e no defensveis
Como mencionado antes, um construto nico, proposto pelos autores, foi utilizado para classicar os itens

de trs exames distintos em defensveis e no defensveis.


Novamente, defensveis so aqueles que permitem coletar evidncias para a interpretao de habilidade com
maior grau de validade de construto. Os autores passam
ento a julgar itens geralmente utilizados para avaliar a
leitura em lngua estrangeira:
Testes que avaliam a habilidade de leitura em lngua estrangeira
tm tradicionalmente incorporado itens que focam a compreenso da ideia principal do texto e algumas vezes de pargrafos,
compreenso do signicado de palavras em contexto, como
tambm na identicao de informaes localizadas (datas,
nmeros, lugares, nomes, etc.) e identicao de referncia
(pronomes relativos, pronomes objetivos, pronomes possessivos, etc.) (Tumolo e Tomich, 2007, p. 73).

O que se observa aqui que o construto aparentemente foi esquecido. O que deve orientar a escolha dos
itens (de compreenso geral, ou de detalhes do texto, ou
ainda de sumarizao) o objetivo da avaliao e seu
construto, e no o que mais simples ou menos problemtico de se avaliar. Os prprios autores citam Hutchins
(1987) a respeito disso, conforme segue:
Itens que focam a compreenso de ideia principal do texto tm
o argumento favorvel que avaliam todo o trabalho de leitura
envolvendo processos inferiores, como estabelecimento da
relao sinttica e atribuio de signicado de palavras, e processos superiores de inferncias, como tambm a progresso
temtica e a sumarizao. Apesar dos argumentos favorveis,
existem aqueles que consideramos desfavorveis. A construo
da ideia principal depende do processo de sumarizao. Esse
processo envolve o desenvolvimento de uma macroestrutura
textual construda, envolvendo o conhecimento de mundo de
cada indivduo, levando a interpretaes distintas de um mesmo
texto (Hutchins, 1987, in Tumolo e Tomich, 2007, p. 73).

Nesse caso, a defesa de um item de compreenso


da ideia principal do texto parece ser feita com base em
outros critrios. Nesse caso especco, arriscaramos dizer
que esta sempre seria defensvel, na medida em que a
entrada para o texto, essencial para uma compreenso
mais detalhada. Mas essa deciso somente poder ser
tomada com base no construto que fundamenta o teste.
Portanto, no se trata de uma opo, mas de uma necessidade, dependendo do construto.
Alm disso, percebe-se a diculdade dos autores
em reconhecerem o papel desempenhado pelos conhecimentos de mundo do leitor em uma viso de leitura como
construo de sentidos. Em nossa opinio, a possibilidade
de interpretarmos um texto de formas distintas que
pode ser mais aberto ou mais fechado, dependendo
do gnero e de outras caractersticas pela variao do
conjunto de conhecimentos do leitor um dos grandes
desaos e a grande riqueza dos processos de avaliao

13

Em Tumolo (2005), embora uma prova completa da Unicamp seja discutida, no so feitos comentrios em relao prova como um todo e nem
ao seu construto. As especicaes da prova aparecem em um dos anexos da tese.

36

30a48_ART04_Scaramucci[rev_OK].indd 36

Matilde V.R. Scaramucci

27/05/2009 18:03:46

Vol. 07 N. 01

da compreenso em leitura. Lidar com essas questes tem


sido uma experincia extremamente interessante para os
que trabalhamos com correo de questes de itens de
respostas abertas em testes de grande escala. Os autores
reconhecem que
[esses itens] podem levar diculdade, em situaes de teste,
de identicar o que pode ser considerado como resposta correta
ou incorreta. Assim, no balano dos argumentos para validade
de construto, esses itens parecem ser defensveis com a ressalva que as distines sejam consideradas no momento da
interpretao (e pontuao) das respostas (Tumolo e Tomich,
2007, p. 73-74).

Apesar de reconhecer essas possibilidades, os


autores no mencionaram aspectos relativos correo
da prova da Unicamp quando classicaram esses itens
em no defensveis.
Por outro lado, itens no defensveis, para os
autores, so aqueles que apresentam
problemas no momento da coleta de evidncias para interpretao da habilidade sendo medida, o que pode ser identicado em
uma investigao de validade de construto. Estaremos focando
trs tipos de problemas que podem ser recorrentes no processo
de desenvolvimento e uso de testes: (a) itens independentes do
texto, (b) itens que fornecem pistas para respostas, e (c) itens
de vocabulrio (Tumolo e Tomich, 2007, p. 78).

Os autores discutem, ento, itens no defensveis


extrados da prova da Unicamp de 1998. Para ilustrar
nossas observaes, retomamos os itens considerados
no defensveis, e os recolocamos em seu contexto, trazendo outros elementos para justic-los. Apresentamos,
portanto, os contra-argumentos e as justicativas para
esses itens com base em seu construto, que explicitamos
a seguir, conforme apresentado no Manual do Candidato
poca em que a prova foi elaborada.
A prova de lngua estrangeira (ingls)
da Unicamp
O formato do atual vestibular da Unicamp14 foi
implantado em 1987. At essa poca, o exame, elaborado
pela Fundao Carlos Chagas, era distinto, mais prximo
dos demais vestibulares no pas. O objetivo de sua reformulao foi selecionar um perl de aluno considerado
desejvel pela universidade e promover, ao mesmo tempo,
maior interao com o ensino de nvel mdio; o que se
desejava, portanto, era um exame que pudesse ser, pelo
menos de maneira potencial, educacionalmente benco.

jan/abr 2009

O impacto que exames de alta-relevncia tm no ensino


e na aprendizagem inegvel e foge da alada dos elaboradores controlarem esse impacto, que, muitas vezes,
no positivo mesmo quando a proposta do exame boa
(vide Scaramucci, 2004).
O novo teste propunha-se a selecionar candidatos
que, alm de dominarem os contedos adquiridos no
ensino mdio, considerados necessrios para o ensino
superior, fossem tambm capazes de organizar suas ideias
e exprimir-se com clareza, estabelecer relaes, interpretar
dados e fatos e elaborar hipteses. Pela sua prpria natureza, minimizaria o incentivo a prticas mecanicistas, de
treinamentos e memorizao de frmulas.
, portanto, dentro dessa losoa que a prova de
ingls foi pensada. Ela focaliza a compreenso em leitura
e, como tal, composta de doze questes, redigidas em
portugus (que, na poca, valiam cinco pontos cada uma),
elaboradas a partir de textos autnticos de gneros, assuntos, extenses, fontes e nveis de diculdade variados. As
respostas devem ser redigidas tambm em portugus, uma
vez que seu objetivo avaliar a compreenso em leitura
do candidato e no sua capacidade de redigir textos em
ingls. Embora a justicativa para um foco na compreenso seja a necessidade de os candidatos lerem bibliograa
em ingls durante sua vida universitria, no se trata aqui
da compreenso de textos acadmicos especcos das
reas em questo. No se espera de um candidato que
no tenha sido exposto aos conceitos de sua rea (o que
dever ocorrer na universidade) ser capaz de ler textos
acadmicos especcos em um nvel de compreenso
adequado (Scaramucci, 1999).
Os textos, portanto, de natureza diversa, oferecem
aos candidatos de reas diferentes possibilidades variadas
de construrem sentidos. Os critrios utilizados para a
seleo de textos so: diversidade temtica, com temas de
interesse dos candidatos, sem se restringirem a um nico
domnio do conhecimento; diversidade de gnero, atravs
de poemas, artigos de jornais e de revistas, artigos cientcos e de vulgarizao cientca dentre outros; autenticidade, isto , textos no extrados de livros para o ensino de
ingls nem muito menos elaborados especialmente para
a prova. Poemas, editoriais e textos de outros gneros
tambm so includos uma vez que parte do construto
que os candidatos sejam capazes de ler e interpretar textos
diversos. Em outras palavras, ler esses gneros parte do
construto avaliado.
O mtodo utilizado para avaliar, como j mencionado, so perguntas de respostas abertas ou disser-

14

O exame vestibular da Unicamp realizado em duas fases: a primeira, obrigatria para todos os candidatos, constituda de uma nica prova
composta de uma redao e de um conjunto de doze questes gerais sobre o contedo das disciplinas do ncleo comum do ensino mdio, ou seja,
Matemtica, Qumica, Fsica, Histria, Geograa e Biologia. A segunda fase, realizada em quatro dias consecutivos, constituda de oito provas,
tambm de respostas discursivas, das disciplinas Lngua e Literaturas de Lngua Portuguesa, Biologia, Qumica, Fsica, Geograa, Histria, Matemtica
e Lngua Estrangeira (Ingls ou Francs). A prova de francs foi eliminada na verso atual. A reviso desse formato est atualmente em discusso.

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 37

37

27/05/2009 18:03:46

Calidoscpio

tativas, que permitem uma gama variada de respostas,


julgadas como mais adequadas ou menos adequadas
aos objetivos de leitura determinados pelas perguntas,
e no apenas uma resposta correta, como no caso das
questes de mltipla escolha. A escolha desse mtodo
fundamental para garantir a validade do construto
avaliado, no caso, a leitura como um processo de
construo de sentidos, que reconhece a possibilidade
de leituras distintas para um mesmo texto, dependendo
dos conhecimentos que cada leitor traz para a tarefa,
assim como de leituras distintas para um mesmo leitor,
dependendo de sua motivao, interesses, envolvimento
e/ou objetivos que tem para a leitura. A substituio
de itens de mltipla escolha pelos de resposta aberta
minimizaria aspectos irrelevantes ao construto diculdades relativas ao mtodo, implicando possivelmente
macetes para resolv-las (Scaramucci, 1999).
A funo das perguntas em uma prova dessa natureza exatamente a de determinar objetivos comuns,
que vo delimitar o leque de respostas possveis, o que
essencial na avaliao, principalmente quando o nmero
de candidatos muito grande, como o caso do vestibular
da Unicamp, que conta com aproximadamente 13.000
candidatos nessa fase (para uma anlise mais detalhada
do programa com as especicaes da prova, e das questes comentadas, vide Scaramucci, 1998 e Scaramucci e
Oliveira, 1999). Podemos dizer, portanto, que o mtodo de
avaliar, neste caso, envolvendo itens de respostas abertas,
parte do construto: ser capaz de expressar-se por escrito,
em portugus, a respeito do que foi lido considerado
elemento importante da capacidade de ler em ingls,
conforme o construto denido para a prova em questo15.
Reconhecer alternativas em uma prova de mltipla escolha
seria incompatvel em vrios aspectos com a viso de
leitura que fundamenta essa prova, na medida em que h
apenas manipulao dos elementos lidos e o risco de uma
preparao equivocada para esse tipo de item. Em outras
palavras, o que estou querendo dizer que a compreenso
somente ser conrmada a partir do momento em que o
leitor capaz de expressar-se a respeito do que leu. Isso
faz com que o exame seja menos excludente, na medida
em que sensvel a nveis mnimos de procincia.
Para que esse conceito de leitura subjacente no
seja, pois, distorcido, a banca, ao elaborar a prova, tambm
elabora, para cada questo, uma grade de correo, que o
conjunto de expectativas para a resposta considerada mais
adequada (e no correta) em vista dos objetivos propostos.
Essa grade (escala de 0 a 516, em que cada faixa tem seus
descritores) completada pela banca de correo a partir

de uma amostra real de provas, que passa a incluir outras


respostas no esperadas. A correo s iniciada quando
todos os nveis so descritos adequadamente.
O programa, que contm as especicaes do exame, tem como objetivo explicitar o conceito ou viso de
leitura e de linguagem a ele subjacentes ou seu construto.
A leitura vista como um processo ativo (e no mais
uma tarefa passiva de decodicao ou de traduo) que
resulta na produo de um texto novo pelo leitor [...]
diferentes leitores podem produzir diferentes leituras do
mesmo texto, o que no signica, em outro extremo, que
qualquer leitura possa ser feita [...] A leitura pode ser
denida como o resultado de uma operao de atribuio
de sentido que atua sobre o texto em sua globalidade,
recuperando seu funcionamento (Vestibular Nacional
Unicamp, 1996, p. 25). Ela concebida, portanto, como
uma prtica que requer capacidades de uso de linguagem
e no apenas de conhecimentos sobre ela. Por sua vez,
o texto no uma soma de frases, mas um todo que se
articula (Vestibular Nacional Unicamp, 1996, p. 26). O
leitor ativo e participante, usando seu conhecimento
prvio para interagir com o texto.
A diculdade das questes no est somente relacionada diculdade ou extenso dos textos. Pode-se
observar um texto fcil com perguntas difceis e um texto
difcil com questes fceis; da mesma forma, um texto
longo pode ser fcil e um curto, difcil. Assim, a prova
tem de ser analisada como um conjunto de questes/textos/
respostas/correo.
As questes so de natureza diversa, buscando
mobilizar diferentes aspectos [da competncia de leitura do
candidato] e diferentes procedimentos frente ao texto. Para
responder a essas questes [o candidato] estar trabalhando
ora com informaes veiculadas no texto, ora com a argumentao que o constitui (Vestibular Nacional Unicamp,
1996, p. 25). O programa ainda apresenta uma lista de objetivos ou propsitos possveis para a leitura, que so aqueles
determinados pelos itens. Esses objetivos ou propsitos
envolvem nveis variados de compreenso, pressupondo
sub-habilidades de leitura diversas, que vo desde a simples
localizao de informaes pontuais explcitas e inferncia
de itens lexicais at a reconstruo da cadeia argumentativa,
reconhecimento de relaes e contradies entre textos,
envolvendo aspectos mais implcitos e inferenciais.
So salientados ainda, no programa, outros elementos que podem ser utilizados na busca de um signicado
para o texto, mas que tambm podem ser avaliados diretamente pelas questes, tais como o autor e o pblico a
que se destina o texto, o contexto scio-histrico em que

15

Para McNamara (2000, p. 26), h duas grandes abordagens para se entender a relao entre o mtodo de avaliar e o contedo da avaliao. A
primeira v o mtodo como um aspecto do contedo, e levanta questes de autenticidade; a segunda, mais tradicional, trata mtodo independentemente
do contedo, e permite formatos de resposta mais obviamente no autnticos.
16
No exame atual, as notas para cada questo so de 0 a 4, com dois itens em cada uma.

38

30a48_ART04_Scaramucci[rev_OK].indd 38

Matilde V.R. Scaramucci

27/05/2009 18:03:46

Vol. 07 N. 01

foi escrito, sua nalidade, o veculo em que foi publicado, sua congurao grca: fotos, ilustraes, grcos,
ttulos, dentre outros.
Por ser um vestibular de altssima demanda e pelo
fato de a prova de ingls ser uma das mais discriminatrias
entre alunos de diferentes nveis socioeconmicos, so includas perguntas de nvel variado de diculdade de forma
a permitir distines nas no apenas entre candidatos de
nveis altos e baixos de procincia, mas, principalmente,
entre os candidatos bons e excelentes (em geral, alunos de
Medicina, dada a relao demanda/oferta de vagas) e entre
os candidatos de nveis baixos de procincia. Alis, esse
um aspecto reconhecido por Tumolo e Tomich (2007,
p. 70) como positivo:
A ideia que um teste, atravs de seus itens, deve permitir que
a pontuao conseguida por cada pessoa reita seu nvel da
habilidade, neste caso, a habilidade de leitura em ingls como
lngua estrangeira. Assim, um teste que permite interpretaes
mais vlidas um teste que possibilita a diferenciao entre um
indivduo com maior nvel da habilidade em questo daquele
com menor nvel da habilidade.

Itens no defensveis da prova de 1998


Tendo caracterizado o construto que fundamenta a
prova da Unicamp, passamos a seguir a analisar os itens
considerados no defensveis, entretanto, agora com base no
construto que a fundamenta. Antes, porm, gostaramos de
observar que, pela amostra de itens considerados defensveis
pelos autores, ca evidente tratar-se de uma concepo distinta de leitura quando comparada quela que fundamenta o
exame da Unicamp, na medida em que, aparentemente, so
valorizadas questes pontuais, em pequenos trechos de textos
de gneros semelhantes, sem ttulo e sem contextualizao
suciente, todos avaliados por meio de itens de perguntas de
mltipla escolha que avaliam mais procincia lingustica e
menos procincia em leitura. No seria coincidncia, portanto, que todos os itens das provas do vestibular da UFSC,
com exceo de um, analisados em Tumolo (2005) tenham
sido considerados defensveis.
(a) Itens independentes do texto
Um dos itens apresentados em Tumolo e Tomich
(2007) como no defensvel foi extrado da prova de
ingls do vestibular Unicamp de 1998 (veja Anexo A).
Esse item o segundo de um conjunto de trs, elaborado a partir de um trecho de um livro de Philip Ridley
intitulado Mercedes Ice, que inicia a prova de 1998. Os
trs itens focalizam os aspectos mais relevantes do texto,
sua ideia principal e detalhes, congurando um conjunto
de sub-habilidades consideradas importantes dentro do
construto que fundamenta a prova. Julgamos, portanto,
importante retomar esse conjunto antes de considerar o
item no defensvel.

jan/abr 2009

O primeiro item (Quem quem nessa histria)


vale ressaltar, considerado defensvel pelos autores
cumpre uma funo procedimental, ou seja, chamar a
ateno do candidato para informaes relativas aos personagens, oferecendo-lhe condies mais adequadas para
responder s perguntas subsequentes. Embora no seja
o item mais simples da prova, importante na medida
em que leva o candidato a reetir sobre o funcionamento
do texto, auxiliando-o na reconstruo de sua estrutura
narrativa. O objetivo da questo a identicao dos trs
personagens a partir dos dilogos, relacionando nomes
e respectivos papis na famlia. A identicao dos nomes extremamente fcil. J as relaes de parentesco
exigiro mais do candidato, que ter de inferi-las atravs
do contexto/palavras e expresses-chave tais como her
mum, youre as foolish as your father e Listen, young
lady. O enunciado mais vago quem quem, que no
explicita ao candidato a existncia de relaes de parentesco entre os personagens, exatamente o que torna a
pergunta interessante. Para respond-la adequadamente,
portanto, o candidato deveria dizer que Harold o pai,
Doll a me; Rosie a lha (Scaramucci e Oliveira,
1999, p. 116).
J o item 2 (A que se refere Shadow Point? Por
que recebeu esse nome?) criticado sob a alegao de
poder ser respondido sem a necessidade de leitura do texto.
Em outras palavras, considerado um item independente
do texto e pouco convel, uma vez que para responder, o
leitor pode fazer uso da gura e de processo de inferncia,
baseado em seu conhecimento de mundo e, portanto, no
defensvel. Dessa forma, estaria respondendo ao item
sem referncia ao texto escrito, podendo, assim, fornecer
apenas evidncias fracas para a interpretao da habilidade
em leitura em ingls como lngua estrangeira (Tumolo e
Tomich, 2007, p. 79).
Concordamos com os autores e igualmente com
Alderson et al. (1995) e Nuttall (in Tumolo e Tomich,
2007) que itens que apenas avaliam conhecimento de
mundo no sejam defensveis em uma prova de vestibular.
Com a devida argumentao, no entanto, sua incluso
at mesmo poderia ser justicada em um teste de sala de
aula, em que o foco do ensino seja, por exemplo, ativao e uso de conhecimento prvio. Entretanto, o item em
questo no independente do texto porque, embora a
informao visual complemente ou oferea subsdios para
a interpretao, no a esgota.
O item em questo, subdividido em duas partes,
visa, na primeira, a recuperao do referente de Shadow
Point (um prdio, edifcio em construo ou outros termos que expressassem a ideia de construo alta e capaz
de gerar sombra) e, na segunda, a explicao do motivo
pelo qual lhe foi dado esse nome (o fato de estar fazendo
sombra na regio ao seu redor).
O leitor poder observar, pelos elementos visuais
que acompanham o texto em que se baseia o item em

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 39

39

27/05/2009 18:03:46

Calidoscpio

questo (Anexo A), um prdio que faz sombra em algumas casas. Entretanto, somente conseguir relacionar
Shadow Point a esse prdio se souber o que Shadow, o
que Point, conhecer a estrutura de um sintagma nominal,
relacionando-o ao que est sendo discutido no texto. Se
se tratasse de uma simples questo de interpretao dos
elementos visuais, todos os candidatos deveriam acertar
esse item, o que no ocorreu. Da a importncia de dados sobre o uso do teste, ou seja, sobre as respostas dos
candidatos em um processo de validao. Foram comuns,
por exemplo, respostas em que houve a identicao do
referente com um elemento da realidade, no possibilitado
nem pelo texto nem pela gura, tais como Big Ben, o Muro
de Berlim, entre outros; ou ainda respostas que, inequivocamente, procederam identicao do referente com
o processo, como, por exemplo: Shadow Point refere-se
ao Big Ben. Ele recebeu esse nome por ser o maior e mais
alto relgio do mundo, tendo grande importncia para os
ingleses; Shadow Point se refere a [sic] construo do
edifcio. Recebeu esse nome por se tornar dia a dia mais
alto17 (Scaramucci e Oliveira, 1999, p. 117).
Alm disso, a capacidade de interpretar informaes visuais que, a propsito, podem ter funes distintas
dentro de um texto e relacion-las com texto escrito
no processo de construo de sentidos cada vez mais
necessria em um mundo em que os letramentos devem
ser mltiplos e , portanto, parte do construto avaliado na
prova de ingls da Unicamp. Dessa forma, a concluso de
que o item era pouco convel por ser independente do
texto no procede e, aparentemente, resultado de uma
anlise baseada em uma concepo distinta de leitura.
Outro aspecto que no podemos deixar de salientar
que a pergunta em questo tem uma segunda parte (Por
que recebeu esse nome?), que avalia o entendimento da
justicativa ou explicao do referente, que no to
simples. Nesse caso, podemos dizer que a funo da
primeira parte seria apenas estabelecer o contexto para
que essa pergunta pudesse ser respondida.
(b) Itens que fornecem pistas
para as respostas
O item 3 (O texto menciona mudanas. Que mudanas so essas?) por sua vez, complementa a anterior,
na medida em que focaliza a identicao das mudanas
ocorridas no local descrito pelo texto como consequncia da sombra causada pelo prdio. H, nesse caso, um
encadeamento de mudanas, que se inicia com a construo do prdio, considerada a primeira mudana (the
Point got taller and taller) e o crescimento da sombra

(the shadow got longer and longer), sua consequncia.


Todas as outras mudanas que se seguiram so, por sua
vez, consequncias dessas duas primeiras (All around
owers died, grass turned brown and rooms became dark
and cold. Old people had to turn on heaters, even in the
middle of summer).
A questo pode ser considerada fcil porque no
pressupe uma interpretao mais elaborada, mas sim a
mera localizao do trecho que menciona as mudanas.
Os elementos solicitados envolvem itens lexicais bsicos,
tais como trees, owers, got, became, turned, once, now,
taller, longer, etc.
Para o obteno da nota 5 era, portanto, necessrio
fazer referncia a todos os elementos da resposta (de forma genrica ou com exemplos) deixando clara a ideia de
encadeamento desses elementos. So exemplos de notas
5: Com o crescimento desse grande edifcio, as ores
ao seu redor morreram, a grama cou amarronzada e os
quartos tornaram-se escuros e frios. Pessoas idosas tinham
que ligar os aquecedores at em pleno vero. Isto ocorreu
devido enorme sombra projetada por esse edifcio.; A
medida que o Shadow Point crescia, ia mudando o cotidiano das pessoas. Assim, a sombra que o Shadow Point
gerava fez com que os mais velhos tivessem de ligar o
aquecedor mesmo no meio do vero. As ores atingidas
pela sombra morreram, a grama tornou-se marrom e toda
a rea se tornou fria e escura (Scaramucci e Oliveira,
1999, p. 117).
Esse item tambm criticado como no defensvel sob a alegao de que fornece, na lngua me,
informaes para sua resposta. Essas informaes sobre
mudanas, juntamente com a gura fornecida com o texto,
j fornecem subsdios para a resposta, permitindo, assim,
que o item seja respondido, em grande parte, com base nas
informaes do prprio item dadas na lngua me, no na
lngua-alvo (Tumolo e Tomich, 2007, p. 80).
Entretanto, fornecer pistas para as respostas parte
do construto da prova da Unicamp. A incluso dessas pistas
deliberada, na medida em que s levaro construo de
sentidos se forem entendidas pelos leitores como pistas e
puderem ser decodicadas. O que queremos dizer que
o contexto para inferncia desses elementos no est no
texto, mas construdo a partir dos conhecimentos diversos
que tm de ser mobilizados de forma ativa pelo leitor. Alm
do mais, esto disposio de todos os candidatos. No
seria, portanto, um exemplo do que salienta Popham (in
Tumolo e Tomich 2007, p. 79) como pistas no intencionadas (unintended clues), mas de pistas intencionadas.
No seriam, como ressalta Messick (1989) (in Tumolo e
Tomich 2007, p. 79), pistas externas que trazem, para a

17
Tambm foi aceita outra variante dessa resposta, permitida pela pergunta, em que o nome Shadow Point uma deciso tomada por Doll em funo
do papel da sombra e das consequncias que provoca.

40

30a48_ART04_Scaramucci[rev_OK].indd 40

Matilde V.R. Scaramucci

27/05/2009 18:03:46

Vol. 07 N. 01

resposta, facilidade irrelevante ao construto, permitindo


que alguns indivduos respondessem corretamente. No
se trata de uma facilidade irrelevante ao construto, mas de
uma facilidade relevante ao construto.
Mesmo com essas pistas, muitos, muitos candidatos
erraram a resposta. Portanto, o item mostrou-se capaz de
discriminar entre os que conseguem usar as pistas e aqueles
que no conseguem us-las, e, portanto, cumpre com seu
papel na congurao das sub-habilidades avaliadas na
prova de acordo com seu construto. Portanto, a crtica no
se justica quando o construto correto utilizado.
Ainda dessa mesma prova de 1998, tambm o item
7 considerado no defensvel sob a mesma alegao, ou
seja, oferecer pistas para as respostas. Nas palavras dos
autores, a pergunta (De que maneira a violncia urbana
pode estar afetando a sade de pessoas idosas?) contm a
proposio de que a violncia urbana pode estar afetando
a sade das pessoas idosas... alm das pistas fornecidas na
lngua-me para a resposta, por um processo de inferncia
baseado no conhecimento de mundo, pode-se chegar
resposta satisfatria (Tumolo e Tomich, 2007, p. 80).
Esse item o nico elaborado a propsito de um
texto extrado da revista New Scientist que, embora curto,
interessante pela tese que apresenta: a sade de pessoas
idosas est sendo prejudicada, de maneira indireta, pela
violncia urbana. A pergunta busca recuperar exatamente
os elementos que do sustentao a essa tese, que devero
estar encadeados na mesma ordem em que so apresentados no texto. Para isso, o candidato teria de entender o
funcionamento do texto como um todo. Embora este seja
relativamente redundante e contenha muitas palavras cognatas, necessrio que o candidato compreenda a lgica
da argumentao, no bastando entender trechos isolados. Apesar de o texto mencionar exemplos, na resposta
adequada h necessidade de se fazer uma generalizao
a partir desses exemplos. Para a atribuio da nota 5,
necessrio incluir os seguintes elementos, que devem estar
encadeados de forma adequada: (a) medo de sair de casa
por causa das gangues de rua (ou violncia urbana). Esse
elemento foi muitas vezes inferido quando o candidato
dizia que havia um impedimento/inibio/etc. das caminhadas devido violncia urbana ou ao medo; (b) interrupo da caminhada. Esse elemento foi inferido quando a
resposta mencionava interrupo de uma atividade fsica.
Algumas vezes, esse elemento no apareceu de modo
explcito, mas estava claramente subentendido como o elo
entre medo (ou medo de caminhar) e controle de peso; (c)
controle de peso. Esse elemento pode aparecer exatamente

jan/abr 2009

como expresso no texto: a interrupo do exerccio fsico


provoca aumento de peso, ou reescrito: exerccio fsico
(caminhada) proporciona controle/diminuio de peso
ou manuteno da forma (fsica); (d) agravamento das
doenas. As seguintes respostas so exemplos de nota 5:
Para pessoas hipertensas e diabticas fundamental fazer
caminhadas para evitar o ganho de peso. As gangues de
rua amedrontam as pessoas, inclusive os idosos citados
no texto consequentemente, estas deixam de fazer caminhadas, ganhando peso e agravando seu quadro clnico.
Assim, com as gangues de rua, aumenta-se o ndice de
doenas, em pessoas idosas, como a diabetes e doenas
cardiovasculares; Pessoas idosas que precisam fazer
caminhadas regulares tm medo de faz-las, por causa da
violncia urbana, principalmente das gangues. Parando de
fazer exerccios elas agravam problemas de sade como
hipertenso, diabetes e ainda ganham peso (engordam)
(Scaramucci e Oliveira, 1999, p. 121-122).
O foco desse item, portanto, no a identicao, no
texto, de que a violncia urbana afeta a sade das pessoas,
porque essa informao j dada, de forma proposital, pela
pergunta. O que se procura resgatar, nesse caso, exatamente a explicao para esse fato, que muito mais interessante.
A primeira parte do item tem uma funo procedimental,
estabelecendo uma base comum e um caminho de entrada
para o texto, denindo claramente o objetivo de leitura,
necessrio para que a resposta possa ser mais bem avaliada
e considerada adequada em testes de respostas abertas.
Segundo Tumolo e Tomich (2007), essa falha, ou seja,
fornecer pistas, explicaria por que o item foi considerado o
mais fcil nas estatsticas baseadas nas pontuaes, e mais
fcil ainda para os futuros estudantes de Medicina18. Itens
dessa natureza tm sua funo na prova. Como salientamos
antes, cumprem o papel de discriminar de forma mais na
entre nveis mais baixos de procincia. Apesar de fcil,
no foi respondido por todos. Mais uma vez, as pistas no
podem ser consideradas ameaas validade de construto,
conforme salientam os autores citando Messick (1989), pois
as evidncias ou pistas em portugus no so irrelevantes
ao construto mas sim, parte dele.
(c) Itens de vocabulrio
Uma terceira categoria de itens no defensveis
seriam itens que medem conhecimento de vocabulrio,
independentemente do contexto em que est inserido e de
possveis processos de inferncia [nfase nossa] (Tumolo
e Tomich, 2007, p. 80).

18

Tumolo (2005) explica a maior facilidade da questo entre os alunos da rea de Biolgicas (a partir de um comentrio em Scaramucci e Oliveira,
1999, p. 122) pelo fato de o texto versar sobre um assunto da rea mdica o que, na opinio do autor, privilegiaria candidatos dessa rea. Discordamos
dessa anlise, visto tratar-se de um texto de vulgarizao cientca, que no pressupe conhecimentos especcos de rea. O fato de ter sido mais
fcil para os alunos da rea de Biolgicas j era esperado e signica que o item realmente discriminou, uma vez que esses alunos so, em geral,
excelentes candidatos, com altos nveis de procincia em leitura em ingls.

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 41

41

27/05/2009 18:03:47

Calidoscpio

Tambm concordo com os autores que avaliar vocabulrio independentemente do contexto e de possveis
processos de inferncia no avaliao de leitura, mas
de vocabulrio. Sem dvida alguma, conhecimento de
vocabulrio essencial e tem uma correlao positiva com
a habilidade de leitura (Tumolo e Tomich, 2007, p. 81).
Medir conhecimento de vocabulrio para a interpretao
da habilidade de leitura no , porm, um procedimento
adequado, j que conhecer determinadas palavras no garante a leitura, como tambm no conhecer determinadas
palavras no impede a leitura (Tumolo e Tomich, 2007,
p. 85). Deve, porm, ser considerado distinto do construto de leitura, por ter caractersticas prprias, podendo,
at mesmo, ser considerado um construto pr-requisito
(Tumolo e Tomich, 2007, p. 81). Essa distino, todavia,
requer uma anlise mais precisa e cuidadosa (para consideraes mais aprofundadas sobre o papel do vocabulrio
na leitura, vide Scaramucci, 1995).
O item citado no artigo em questo para ilustrar essa
categoria foi extrado de uma prova da Unicamp de 2000. Em
vez de discutir esse exemplo, entretanto, prero usar outro,
extrado da prova de 1998 (item 6), utilizado em Tumolo
(2005), uma vez que o leitor poder avali-lo melhor dentro
do contexto da prova, que se encontra no Anexo A. O item
em questo era o terceiro de um conjunto de trs, elaborados
a propsito de um trecho de um texto mais longo sobre geofagia, extrado da pgina da revista Nature, intitulado The
soil-eaters. O vocabulrio do texto pode ser considerado fcil,
rico em palavras cognatas, prexos e suxos.
O item (D um signicado para a palavra but no
trecho [] on the whole [soil eaters] are regarded as quite
normal to most but outsiders) focalizava o sentido menos
comum de but (exceto, exceo ou excluso). Mesmo desconhecendo o signicado da palavra, o leitor poderia responder
adequadamente questo, pois teria a chance de inferi-la pelo
contexto. Embora focalize apenas um item lexical, a pergunta
no deixa de ser uma questo de leitura, uma vez que para
respond-la o leitor ter que interpretar adequadamente tanto
o trecho que a contm como o que vem em seguida focalizado na pergunta anterior (item 5), comentada mais adiante.
Portanto, o entendimento correto de but fundamental para que
o leitor possa relacionar que a geofagia comum em seu contexto mas desconhecida, pouco relatada, mal compreendida
ou ignorada pela maioria das pessoas fora do seu ambiente,
que so exatamente as pessoas no mundo desenvolvido, como
mostra o trecho a seguir:
The reasons for soil consumption are many and often misunderstood, say the researchers Peter Abrahams and Julia Parsons.
But geophagists as soil-eaters are known on the whole
are regarded as quite normal to most but outsiders [nfase
nossa]. Despite the widespread distribution of geophagy, both
today and in the past, it is largely unknown, under-reported,
misunderstood or ignored by most people in the developed
world, say Abrahams and Parsons. [This is why] the adjectives eccentric, perverted, odd, and bizarre have all been
applied to geophagy [...].

42

30a48_ART04_Scaramucci[rev_OK].indd 42

Portanto, no se trata apenas de um item de avaliao de vocabulrio, mas sim de um item de leitura que, mais
uma vez, procura chamar a ateno do leitor para algo que
lhe poderia passar despercebido por julgar j conhec-lo
(sentido mais frequente de but). Trata-se, portanto, de mais
um item procedimental, que faz com que o candidato analise
o trecho e possa, com isso, relacion-lo ao que vem a seguir.
Portanto, a funo desse item na prova est inteiramente de
acordo com a armao de Tumolo e Tomich:
o processo de inferncia de signicado de palavras desconhecidas pode ter uma contribuio positiva fundamental e
palavras desconhecidas podem ter seu signicado inferido em
contexto com auxlio de outras ao redor (Tumolo e Tomich,
2007, p. 82).

Em provas de entrada e procincia, em que o


foco geralmente o produto da compreenso e no seu
processo, itens que focalizam inferncia de palavras pelo
contexto, apesar de considerada uma sub-habilidade importante para a leitura, podem no se justicar porque o
foco, nesse caso, no seria em como o leitor chegou a um
sentido, mas se chegou a um sentido. Outro argumento
muitas vezes citado para no inclu-los que nunca teremos garantias do que o item est realmente avaliando
(vide Alderson e Lukmani (1989), para uma discusso
interessante a respeito de objetivos em perguntas de
avaliao de leitura): ele pode funcionar como um item
de leitura para o candidato que desconhece o sentido da
palavra e usou as pistas para inferi-lo; ou como um item
de conhecimento de vocabulrio para aquele que j sabe
o que a palavra signica. Entretanto, no seria esse o
caso aqui, visto tratar-se de um item pouco frequente: as
chances de os candidatos no conhecerem esse sentido
so grandes, fazendo com que tenham que recorrer s
pistas do contexto. Dada a correlao entre conhecimento
de vocabulrio e leitura (bons leitores geralmente tm
um bom vocabulrio) imaginamos que os poucos que
conheam esse sentido menos frequente tenham tambm
grandes chances de serem bons leitores.
(d) Itens de natureza diversa
Havia mais dois itens (4 e 5) elaborados a propsito
do mesmo texto. O primeiro deles tambm considerado
no defensvel em Tumolo (2005) (O primeiro pargrafo se dirige a um pblico-leitor especco. Que pblico
esse? Justique sua resposta) chamava a ateno para
um aspecto pouco trabalhado na escola, apesar de extremamente desejvel, que a relao entre as estratgias
discursivas usadas pelo autor e o universo referencial do
leitor presumido. O objetivo especco era identicar o
pblico leitor que o autor tinha em mente, justicando a
resposta atravs dos elementos de contextualizao fornecidos no primeiro pargrafo do texto, a saber, familiaridade ou conhecimento de hbitos urbanos relacionados
Matilde V.R. Scaramucci

27/05/2009 18:03:47

Vol. 07 N. 01

alimentao: restaurantes tpicos, fast food e entrega a


domiclio, conforme trecho a seguir:
Its lunchtime somewhere in rural tropical Africa. Youre
hungry, but the nearest restaurant is too far to walk. Theres
no Italian, Chinese, Indian or fast food and the telephone pizza
delivery company is a little reluctant to send its dispatch rider
beyond the city walls.
Moreover, youre on a tight budget. What are you to do? The
answer, quite literally, may lie in the soil directly beneath your
feet (Scaramucci e Oliveira, 1999, p. 118).

Para o autor, esse item no seria defensvel porque


O voc hipottico (que se refere ao pblico que o escritor
tem em mente, no Caderno de Questes Comentadas), no
geralmente usado em textos acadmicos, e portanto, no necessariamente parte do critrio de referncia usada neste estudo.
Para que ele pudesse ser identicado, o candidato teria que
esquecer a informao normalmente usada para a identicao
do leitor potencial, relevante para os estudos universitrios,
tais como o veculo usado para publicao, o registro, a funo, o tpico. No caso, a concluso seria que o pblico leitor
seria algum com acesso internet, uma vez que o texto tem
o formato de um texto publicado nesse meio, algum que l
revistas de cincia, no algum hipottico que est em uma
rea rural da frica e familiar com todas as comodidades da
vida moderna, tais como restaurantes de fast food (Caderno de
Questes Comentadas) [...].
Esse outro item cujo foco, evidentemente, no trabalhado
na escola secundria (Caderno de Questes Comentadas), que,
juntamente com o fato de no ser a inferncia usual para a
identicao do pblico alvo, pode explicar o nvel de diculdade representada por 70% de notas zero. Se no trabalhado
previamente, e no parte do critrio, por que usar esse tipo de
questo? O que est sendo determinado atravs de questes
como estas? H argumentos fortes para no usar esse item para
a obteno de evidncias para a inferncia da capacidade de
leitura (Tumolo, 2005, p. 207-208).19

Vrios so os aspectos que merecem ser questionados


nessa longa argumentao, todos eles motivados pelo uso de
um construto que distinto daquele que fundamenta a prova
da Unicamp. A armao de que o voc hipottico no
geralmente usado em textos acadmicos, e, portanto, no
necessariamente parte do critrio de referncia usado neste
estudo, equivocada, porque o que interessa que seja
parte do critrio de referncia do exame em questo, que no
pressupe a leitura de textos acadmicos. Como j havamos
salientado anteriormente, o programa, que contm as espe-

jan/abr 2009

cicaes, claro nesse sentido e [inclui] outros elementos


[...] tais como o autor e o pblico a que se destina o texto, o
contexto scio-histrico em que foi escrito, sua nalidade, o
veculo em que foi publicado, sua congurao grca: fotos,
ilustraes, grcos, ttulos, dentre outros (Scaramucci,
1999, p.10). Portanto, a crtica no se justica.
Alm disso, discordamos da armao de que o
leitor teria que esquecer a informao normalmente usada
para a identicao do leitor potencial [...] tais como o veculo usado para publicao, o registro, a funo, o tpico,
o veculo em que foi publicado. Embora a informao, por
exemplo, do veculo usado para publicao possa ser usada,
ela insuciente, neste caso. Outros elementos, relacionados ao tpico familiaridade ou conhecimento de hbitos
urbanos relacionados alimentao, restaurantes tpicos, fast
food e entrega a domiclio -- so aqui mais produtivos. Dessa
maneira, a resposta sugerida pelo autor, ou seja algum
com acesso internet, uma vez que o texto tem o formato
de um texto publicado nesse meio, algum que l revistas
de cincia, [e] no algum hipottico que est em uma rea
rural da frica e familiar com todas as comodidades da
vida moderna, tais como restaurantes de fast food (Caderno
de Questes Comentadas) no seria adequada porque pressupe uma interpretao equivocada (Tumolo, 2005, p. 206).
Portanto, para a obteno da nota 5, era necessrio incluir
a identicao do pblico leitor no apenas como algum
com acesso internet (o que seria bvio e incompleto) ou
como algum hipottico que se encontra em uma rea rural
da frica e familiar com todas as comodidades da vida
moderna, tais como restaurantes de fast food (o que seria
equivocado, porque esse pblico, na realidade, no est na
rea rural da frica), mas como um pblico urbano, que desconhece a geofagia e precisa ser contextualizado atravs das
coisas que lhe so familiares. Como o texto aborda um hbito
alimentar desconhecido, usa, para contextualizar seu pblico
leitor, hbitos alimentares conhecidos por esse pblico. Portanto, respostas que armaram tratar-se apenas de um pblico
com acesso internet foram consideradas inadequadas, como
mostram os exemplos de nota 0 mais adiante.
So exemplos de nota 5: O primeiro pargrafo
se dirige a um leitor que vive nas grandes cidades porque
restaurantes italianos, chineses, fast-food ou mesmo um
disque-pizza so caractersticos de um meio urbano;
Este pargrafo dirige-se a um pblico leitor do mundo

19

The hypothetical you (referred to as the public that the writer has in mind, in the Review Book) is not usually used in academic texts, thus
not necessarily in the criterion of reference used in this study. For it to be identied, the test taker must forget the usual information used for the
identication of the target reader, rather relevant for university studies, such as the media used for publication, the register, the function, the topic.
In this case, the conclusion would be that the target reader is someone with access to the Internet in that it has the format of a text published on it,
someone who reads science magazine, not someone hypothetical who is in a rural area in Africa and is familiar with all commodities [sic] of modern
life, such as fast food restaurants (Review Book). This is another item whose focus is, admittedly, not worked upon in the secondary school (Review
Book), which, together with the fact that it is not the usual inference for the identication of the target reader, might account for the level of difculty
found represented by 70% of score zero (Review Book). If not worked upon previously, and not in the criterion, why to use this kind of question?
What is being determined through the use of questions such as these? This item seems to have stronger argument against its use to provide evidence
converging to the inference of reading ability (Tumolo, 2005, p. 207-208).

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 43

43

27/05/2009 18:03:47

Calidoscpio

civilizado, isto , das cidades, pois so mencionados


restaurantes de vrias nacionalidades e tambm servio de
entrega, coisas tpicas das cidades; Esse pargrafo se dirige a pessoas de pases desenvolvidos que no conhecem
a realidade de fome em determinadas regies do planeta
como na frica tropical. Isso pode ser percebido porque
ele se dirige a um pblico que tem facilidades para obter
alimentos, podendo, por exemplo, pedir uma pizza pelo
telefone e no conhece sobre aqueles que comem terra para
sobreviver (Scaramucci e Oliveira, 1999, p. 119).
Sem dvida alguma, esse era um item considerado
difcil na prova, elaborado para fornecer informaes que
possibilitassem uma discriminao mais na entre candidatos de nveis de procincia mais alta, como j dissemos,
necessria quando a populao de candidatos muito
heterognea. Os exemplos de respostas nota 0 a seguir
mostram essa heterogeneidade, quando comparadas com
as respostas de nota 5 acima: O pblico norte-americano
que come fast-food; Pessoas ricas, de primeira classe;
O pargrafo se dirige a pessoas que utilizam a Internet;
O pargrafo se dirige a turistas que esto na zona rural
da frica, na hora do almoo, e no sabem car sem um
hambrguer ou uma pizza; O pargrafo se dirige aos
habitantes da frica que comem terra pois no tem restaurantes, fast-food e disk-pizzas por perto; As pessoas
que esto engordando, pois ele sugere que elas no v [sic]
a Restaurantes Chins, Italiano, Indiano e joguem fora os
telefones das pizzarias e Servios de entrega de comida
a domiclio. Sugerindo que estas faam uma dieta saudvel; Ao pblico Italiano, Chins e Indiano. O pblico
Italiano pede pizza pelo telefone, os chineses gostam de
restaurantes e os Indianos gostam muito de Literatura;
Aos literrios. Porque na ltima frase o autor se dirige
diretamente ao pblico chamando-os de quite literally;
So os turistas, porque alm de o texto apresentar as comidas mais conhecidas do mundo e que no existem nas
savanas africanas, o texto ainda menciona o aperto dentro
de um veculo (Scaramucci e Oliveira, 1999, p. 119).
O segundo item (Qual a explicao de Abrahams e Parsons para o uso de adjetivos como eccentric,
perverted, odd e bizarre para caracterizar a
geofagia?), por sua vez, considerado defensvel em Tumolo (2005), tinha por objetivo identicar uma relao
de causa e efeito entre dois trechos do texto, sinalizada
pelo articulador lgico why juntamente com o elemento
anafrico this. A questo, que se mostrou de diculdade
mdia, pressupunha tambm o conhecimento dos prexos
negativos un-, under- e miss-, e de itens lexicais em sua
maioria bsicos ou cognatos. Apesar de ser muito localizada, no exigindo o processamento do texto como um
todo, pressupunha o reconhecimento de vrios elementos

coesivos, que tambm uma sub-habilidade importante


e parte do construto avaliado na prova em questo (Scaramucci e Oliveira, 1999, p. 119).
A prova, conforme cpia no Anexo A, envolvia
ainda mais 5 itens, elaborados a propsito de dois textos,
dos quais apenas um item havia sido considerado defensvel
em Tumolo (2005). Para no nos estender demasiadamente,
no comentaremos esses itens. O que merece ser salientado, entretanto, que enquanto as crticas aos itens iniciais
foram relativas, em grande parte, s facilidades por eles
introduzidas, as crticas aos itens nais foram relativas s
diculdades, o que mostra, efetivamente, que a prova
inclua itens de natureza e diculdades diversas, conforme
previsto pelo construto em que se fundamenta, e teria, portanto, de ser avaliada no conjunto de seus itens e textos.
Consideraes nais
Nosso objetivo, neste artigo, foi mostrar que a
classicao de um item em defensvel e no defensvel
apenas com base no julgamento do especialista, conforme
conduzida em Tumolo e Tomich (2007) e Tumolo (2005),
no pode ser considerada denitiva, mas provisria e
parcial at que outros argumentos a refutem. Procuramos
mostrar, ainda, o que reconhecido pelos prprios autores,
que validade uma questo de grau, no uma coisa
de tudo ou nada. A validade da interpretao e a ao
baseada nos itens sero relativos fora da argumentao,
sendo mais vlido ou menos vlido em relao a todos
os argumentos apresentados (Tumolo, 2005, p. 236). A
concluso, portanto, de que a prova da Unicamp contm
muitas fontes de invalidade (Tumolo, 2005, p. 217)
no mnimo precipitada.
Ao questionar a anlise conduzida, nosso argumento principal foi mostrar que cada teste tem seu construto,
denido na fase de elaborao do instrumento. E com
base nesse construto que a defensibilidade dos itens deve
ser julgada: em outras palavras, em que medida o instrumento a operacionalizao desse construto. Portanto,
conclumos que a anlise dos autores equivocada, na
medida em que considera um construto externo para
avaliar os itens da prova de ingls da Unicamp.
Para nalizar, no poderamos deixar de ressaltar
a importncia de se levar em conta, em um processo de
validao, a situao de uso do teste e as evidncias de seus
resultados, conforme proposto por Messick e seguido por
muitos outros autores. Como salienta Bachman (1990, p.
279) testes no so desenvolvidos e usados em um tubo
de ensaio psicomtrico, despido de valores; eles so sempre elaborados para servir s necessidades de um sistema
educacional ou da sociedade como um todo20.

20
Tests are not developed and used in a value-free psychometric test-tube; they are virtually always intended to serve the needs of an educational
system or society at large (Bachman, 1990, p. 279).

44

30a48_ART04_Scaramucci[rev_OK].indd 44

Matilde V.R. Scaramucci

27/05/2009 18:03:47

Vol. 07 N. 01

Referncias
ALDERSON, J.C.; CLAPHAM, C.; WALL, D. 1995. Language test
construction and evaluation. Cambridge, Cambridge University
Press, 310 p.
ALDERSON, J.C.; LUKMANI, Y. 1989. Cognition and reading: Cognitive levels as embodied in test questions. Reading in a Foreign
Language, 5(2):253-270.
ARAJO, K. da S. 2007. A perspectiva do examinando sobre a autenticidade de avaliaes em leitura em lngua estrangeira. Campinas,
SP. Dissertao de Mestrado. Universidade Estadual de Campinas
Unicamp, 153 p.
AERA/APA/NCME. 1985. Standards for Educacional and Psychological Testing. Washington, DC, American Psychological Association,
98 p.
BACHMAN, L. 1990. Fundamental considerations in language testing.
Oxford, Oxford University Press, 408 p.
BACHMAN, L. 2005. Building and supporting a case for test use.
Language Assessment Quarterly, 2(1):1-43.
CHAPELLE, C.A. 1999. Validity in language assessment. Annual Review
of Applied Linguistics, 19:254-272.
CHAPELLE, C.A. 1994. Are C-tests valid measures for L2 vocabulary
research? Second Language Research, 10(2):157-187.
CHERRYHOLMES, C. 1988. Power and criticism: poststructural investigations in education. New York, Teachers College Press, 223 p.
EBEL R.L.; FRISBIE, D.A. 1991. Essentials of Educational Measurement. 5 ed., Englewood Cliffs, Prentice-Hall, 622 p.
GAGN, E.D.; YEKOVICH, C.W.; YEKOVICH, F.R. 1993. The cognitive psychology of school learning. New York, Harper Collins
College Publishers, 512 p.
GRONLUND, N.E. 1985. Measurement and Evaluation in Teaching.
4 ed., New York, Macmillan. Pub. Co.; London, Collier Macmillan, 597 p.
HAMP-LYONS, L.; LYNCH, B. 1998. Perspectives on validity: A historical analysis of language testing conferences. In: A. KUNNAN
(ed.), Validation in language assessment. Mahwah, L. Erlbaum,
p. 253-277.
HENNING, G. 1987. A Guide to language testing. Cambridge, Cambridge University Press, 198 p.
HUGHES, A. 1989. Testing for language teachers. Cambridge, Cambridge University Press, 172 p.
HUTCHINS, J. 1987. Meaning: the frontier of informatics. Informatics 9. Proceedings of a conference jointly sponsored by Aslib, the
Aslibi Informatics Group, and the Information Retrieval Specialist
Group of the British Computer Society, Kings College Cambridge.
London, Aslib, p. 151-173.
KANE, M.T. 2001. Current concerns in validity theory. Journal of
Educational Measurement, 38(4):319-342.
KANE, M.T. 1992. An argument-based approach to validity. Psychological Bulletin, 112(3):527-535.
KUNNAN, A.J. 1999. Recent developments in language testing. Annual
Review of Applied Linguistics, 19:235-253.
LINN, R.L. 1997. Evaluating the validity of assessments: The consequences of use. Educational Measurement: Issues and Practice,
16(2):14-16.
MCNAMARA, T.; ROEVER, C. 2006. Language Testing: The social
dimension. Blackwell Publishing Limited, 284 p.
MCNAMARA, T. 2000. Language Testing. Oxford, Oxford University
Press, 140 p.
MEHRENS, W.A. 1997. The consequences of consequencial
validity. Educational Measurement: Issues and Practice,
16(2):17-18.
MESSICK, S. 1989. Validity. In: R. L. LINN (ed.), Educational measurement. 3 ed., New York, American Council on Education e
Macmillan, p. 13-103.
MISLEVY, R.J.; STEINBERG, L.S.; ALMOND, R.G. 2003. On the
structure of the educational assessments. Measurement: Interdisciplinary Research and Perspectives, 1:3-62.

jan/abr 2009

MOSS, P.A. 1992. Shifting conceptions of validity in educational


measurement: Implications for performance assessment. Review
of Educational Research, 62:229-258.
POPHAM, W.J. 1997. Consequential validity: Right concern wrong concept. Educational Measurement: Issues and Practice, 16(2):9-13.
SCARAMUCCI, M.V.R. [s.d.]. Validade e consequncias sociais das
avaliaes em contextos de ensino/aprendizagem de lnguas. [em
preparao].
SCARAMUCCI, M.V.R. 2007. Validade e consequncias sociais da
avaliao de desempenho no contexto de lnguas. Campinas, SP.
Projeto de ps-doutorado, FAPESP, 19 p.
SCARAMUCCI, M.V.R. 2004. Efeito retroativo da avaliao no ensino/
aprendizagem de lnguas: o estado da arte. Trabalhos em Lingustica Aplicada, 43(2):203-226.
SCARAMUCCI, M.V.R. 1999. Vestibular e ensino de lngua estrangeira
(Ingls) em uma escola pblica. Trabalhos em Linguistica Aplicada, 34:7-29.
SCARAMUCCI, M.V.R. 1998. Lngua Estrangeira (Ingls). Caderno
de Questes. A Unicamp comenta suas provas. Comvest, Unicamp, p. 99-109. Disponvel em: http://www.comvest.unicamp.
br/vest_anteriores/1998/download/comentadas/LEstrangeira.pdf.
Acesso em: 01/02/2009.
SCARAMUCCI, M.V.R. 1995. O papel do lxico na compreenso em
leitura em lngua estrangeira: foco no produto e no processo.
Campinas, SP. Tese de Doutorado. Universidade Estadual de
Campinas - Unicamp, 345 p.
SCARAMUCCI, M.V.R.; OLIVEIRA, P.S. 1999. Lngua Estrangeira
(Ingls). Caderno de Questes. A Unicamp comenta suas provas.
Comvest, Unicamp, p. 112-128. Disponvel em http://www.
comvest.unicamp.br/vest_anteriores/1999/download/comentadas/
LEstrangeira.pdf. Acesso em: 01/02/2009.
SHEPARD, L.A. 1997. The centrality of test use and consequences
for test validity. Educational Measurement: Issues and Practice,
16(2):5-13.
THORNDIKE, R.L.; HAGEN, E.P. 1986. Measurement and Evaluation
in Psychology and Education. New York, Macmillan, 544 p.
TUMOLO, C.H.S.; TOMICH, L.M.B. 2007. Avaliando a leitura em
ingls: uma reexo sobre itens de testes. Revista Brasileira de
Lingustica Aplicada, 7(2):67-88.
TUMOLO, C.H.S. 2005. Assessment of reading in English as a foreign
language: investigating the defensibility of test items. Florianpolis,
SC. Tese de Doutorado. Universidade Federal de Santa Catarina
UFSC, 314 p.
VESTIBULAR NACIONAL UNICAMP. 1996. Manual do candidato.
Comvest, Unicamp.
WIGGINS, G.P. 1993. Assessing student performance: Exploring the
purpose and limits of testing. San Francisco, Jossey-Bass Publishers, 316 p.

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 45

Submetido em: 12/03/2009


Aceito em: 30/03/2009

Matilde V. R. Scaramucci
Universidade Estadual de Campinas
Rua Srgio Buarque de Holanda, 571
13083-859 - Campinas, SP, Brasil

45

27/05/2009 18:03:47

Calidoscpio

Anexo A: Prova do exame vestibular de ingls da Unicamp de 1998


Todas as perguntas devero ser respondidas em portugus.
Leia o trecho abaixo e responda s questes 1, 2 e 3.

Day by day the Point got taller and taller. And day by
day the shadow got longer and longer.
All around owers died, grass turned brown and rooms
became dark and cold.
Old people had to turn on heaters, even in the middle
of summer.
Its just so ugly, said Doll to Harold as they ate dinner
one night.
Once I used to look out of the window and see trees
and owers, hear singing birds. Now all I see is that ugly
grey thing. Therere no owers, no trees, no light, no grass,
no birds, nothing.
Oh, its not that bad, said Harold.
Dont give me that, snapped Doll. You dont have
to watch it. Day in and day out. Watch it getting bigger
and bigger and bigger.
Rosie sat at the table and ate her dinner. She thought
her mum was being stupid, although she didnt say so.
Instead, she just lled her mouth with a forkful of mashed
potato and stared at her plate.
Later, though, while Doll was washing up, Rosie
couldnt help saying, I dont think its ugly. Well, youre
as foolish as your father, then. I just think its . . its a
gigantic nger pointing up to the sky. Or a tall ower. Or
a wonderful steeple
Listen, young lady, interrupted Doll. Its not a nger
and its not a ower and its not a steeple. Its just a shadow.
Nothing else. Its just a point of shadow.

46

30a48_ART04_Scaramucci[rev_OK].indd 46

And that was how the Point became known as Shadow


Point.
(Philip Ridley. Mercedes Ice. London,
Pufn Books. 1996, p. 18-19)
1. Quem quem nessa histria?
2. A que se refere Shadow Point? Por que recebeu
esse nome?
3. O texto menciona mudanas. Que mudanas
so essas?

As questes 4, 5 e 6 dizem respeito


ao texto abaixo.
nature science update
[Update] [Next Article]
The soil-eaters
By Ehsan Masood
Its lunchtime somewhere in rural tropical Africa.
Youre hungry, but the nearest restaurant is too far to walk.
Theres no Italian, Chinese, Indian or fast food and the
telephone pizza delivery company is a little reluctant to
send its dispatch rider beyond the city walls.
Moreover, youre on a tight budget. What are you to
do? The answer, quite literally, may lie in the soil directly
beneath your feet.
Matilde V.R. Scaramucci

27/05/2009 18:03:47

Vol. 07 N. 01

According to two researchers from the University of


Wales at Aberystwyth, UK, the tradition of soil consumption is still very much alive in the African tropics, India,
Jamaica and it has also been reported in Saudi Arabia.
Despite the advent of modern religions and the end of the
slave trade, soil eating is not uncommon, though mostly
conned to the poorer sections of society.
The reasons for soil consumption are many and often
misunderstood, say the researchers Peter Abrahams and
Julia Parsons. But geophagists as soil-eaters are known
on the whole are regarded as quite normal to most but
outsiders.
Despite the widespread distribution of geophagy,
both today and in the past, it is largely unknown, underreported, misunderstood or ignored by most people in the
developed world, say Abrahams and Parsons. [This is
why] the adjectives eccentric, perverted, odd, and
bizarre have all been applied to geophagy.[...]
(Nature News Service, 1996)
4. O primeiro pargrafo se dirige a um pblicoleitor especco. Que pblico esse? Justique sua
resposta.
5. Qual a explicao de Abrahams e Parsons para
o uso de adjetivos como eccentric, perverted, odd
e bizarre para caracterizar a geofagia?
6. D um signicado para a palavra but no trecho on the whole [soil eaters] are regarded as quite
normal to most but outsiders.

Leia o texto abaixo e responda questo 7.


A sidelight on urban violence in the US could also be
showing up a similar situation in some parts of the UK. A
doctor in Arkansas has pointed out that the rise of street
gangs is affecting preventive medicine for elderly people.
He mentioned two patients of his, both in their early 60s,
one with hypertension and the other with diabetes. Both
took regular walks of a mile or two several times a week,
but they have become too frightened of street gangs to
go out.
Their walks ceased several months ago. Consequently
both had gained about 10 pounds in weight, not a good
thing for either condition. So street gangs, apart from the
obvious damage they can cause, might also be worsening
cardiovascular disease and diabetes in the elderly. I do
not know whether anyone has noticed gains in weight for
the same reason among elderly patients in some parts of
London, for example.
Bill Tidy
(New Scientist, 28 September 1991)
7. De que maneira a violncia urbana pode estar
afetando a sade de pessoas idosas?

jan/abr 2009

Leia os dois textos abaixo, da seo Letters,


e responda s questes 8, 9, 10 e 11.
ES
MURPHY WAS A PERFECTIONIST
As the son of the man whose name is attached to
Murphys law, I want to thank you for accurately and respectfully identifying the origin of this law in your recent
article [The Science of Murphys Law, by Robert A.J.
Matthews, April]. My father was an avid reader of Scientic
American, and I can assure you that were he still alive, he
would have written to you himself, thanking you for a more
serious discussion of Murphys Law than the descriptions
on the posters and calendars that treat it so lightly.
Yet as interesting as the article is, I suggest that the
author may have missed the point of Murphys Law.
Matthews describes the law in terms of the probability
of failure. I would suggest, however, that Murphys law
actually refers to the CERTAINTY of failure. It is a call
for determining the likely causes of failure in advance
and acting to prevent a problem before it occurs. In the
example of ipping toast, my father would not have stood
by and watched the slice fall onto its buttered side. Instead
he would have gured out a way to prevent the fall or at
least ensure that the toast would fall butter-side up.
Murphy and his fellows engineers spent years testing new
designs of devices related to aircraft pilot safety or crash survival when there was no room for failure (for example, they
worked on supersonic jets and Apollo landing craft). They
were not content to rely on probabilities for their successes.
Because they knew that things left to chance would denitely
fail, they went to painstaking efforts to ensure success.
EDWARD A. MURPHY III, Sausalito, California
After receiving more than 362 intact issues of Scientic
American, I received the April issue with the article on
Murphys Law that was not only assembled incorrectly by
the printer but also damaged by the U.S. Post Ofce during
delivery. My teenage daughter is taking this magazine into
her science class to talk about Murphys Law. The condition
of this issue is an excellent example for her presentation.
BRAD WHITNEY, Anaheim, California
(Scientic American, August 1997)
8. O que deu origem a esses dois textos?
9. O primeiro texto destaca dois pontos positivos
e faz uma ressalva. Transcreva o quadro abaixo para
o seu caderno de respostas, preenchendo-o com as
informaes necessrias:

Pontos
posivos

2.

Ressalva

Avaliao da leitura em ingls como lngua estrangeira e validade de construto

30a48_ART04_Scaramucci[rev_OK].indd 47

1.

47

27/05/2009 18:03:47

Calidoscpio

10. O segundo texto arma: The condition of this issue is an excellent example for her presentation.
Explique por qu.
11. Explique por que Murphy pode ser considerado um perfeccionista.

Leia o texto abaixo e responda questo 12.

Caesars Ghost
The real reason why things never change
The U.S. standard railroad gauge the distance
between the rails is 4 feet, 8.5 inches. Why that exceedingly odd number? Because thats the way they built them
in England, and the U.S. railroads were built by English
expatriates. Why did the English people build them like
that? Because the rst rail lines were built by the same
people who built the pre railroad tramways, and thats
the gauge they used. Why? Because the people who built
the tramways used the same jigs and tools for building
wagons, which used that wheel spacing. OK! Why did the
wagons use that odd wheel spacing? Well, if they tried to
use any other spacing their wagons would break on some
of the old long-distance roads, because thats the spacing
of the old wheel ruts.

48

30a48_ART04_Scaramucci[rev_OK].indd 48

So who built the old rutted roads? The rst longdistance roads in Europe were built by Imperial Rome
for the benet of their legions and have been used ever
since. The initial ruts, which everyone else had to match
for fear of destroying their wagons, were rst made by
Roman war chariots, which, because they were made for
or by Imperial Rome, were all alike in the matter of wheel
spacing. So, the U.S. standard railroad gauge of 4 feet,
8.5 inches derives from the original specications for an
Imperial Roman army war chariot. Specs and bureaucracies live forever.
From Kyoto Journal (#33). Subscriptions:
$40 for 4 issues from 31 Baud St.,
York, NY 10012. RICHARD THOMSON
(UTNE READER, July-August 97, p. 32).

12. Explique o ttulo desse texto.

Matilde V.R. Scaramucci

27/05/2009 18:03:47

Anda mungkin juga menyukai