NOTÍCIA

Políticas Públicas

O quebra-cabeça da avaliação

Manifestações contra testes de alto impacto surgem em diversos países e apontam para a precariedade da apropriação pedagógica dos resultados das provas

Publicado em 10/09/2011

por Beatriz Rey

Há aproximadamente um ano o noticiário internacional registra manifestações incipientes contra avaliações externas, reproduzidas no meio educacional de diversos países. O panorama é sempre o mesmo: professores, indignados com o peso desse tipo de provas e preocupados com o mau uso feito com os resultados produzidos por elas (como o ranking ), resolvem boicotá-las. Na Inglaterra, o boicote contra o Standart Assessment Test (SAT), prova aplicada nos anos finais do ensino fundamental, atingiu um quarto das escolas em maio de 2010. Um mês antes, docentes australianos optaram pelo mesmo tipo de protesto em relação ao Naplan, avaliação nacional. Nos EUA, além de movimentos organizados por pais e educadores nas universidades e na internet, estava programada para acontecer, no final de julho, em Washington DC, a marcha “Salvem nossas escolas”. Uma das bandeiras era justamente o fim dos chamados “testes de alto impacto”.

Em outubro do ano passado, a onda de insatisfação com o peso das provas chegou ao meio acadêmico brasileiro. Presentes na 33ª reunião da Associação Nacional de Pós-Graduação e Pesquisa em Educação (Anped), em Caxambu (MG), um grupo de educadores criou o “Movimento Contra Testes de Alto Impacto”, chancelado por 82 educadores conhecidos no país e dois estrangeiros (Almerindo Afonso, de Portugal, e Juan Casassus, do Chile). O movimento pretende, em primeiro lugar, alertar pais, alunos, administradores e o próprio governo de que os chamados “testes de alto impacto” são imprecisos. Além disso, busca discutir a criação de um código de ética para a elaboração, aplicação e utilização dos dados obtidos por processos avaliativos. “Os testes devem ser usados para diagnóstico e para orientar a aprendizagem, não para fazer ranking de alunos e professores”, diz Luiz Carlos de Freitas, da Faculdade de Educação da Unicamp e um dos coordenadores do movimento.

O termo “testes de alto impacto” foi incorporado do inglês ( high-stakes testing ), expressão concebida na década de 80 no meio acadêmico norte-americano para designar avaliações externas que são atreladas a decisões que dizem respeito a alunos, professores e gestores. Em artigo sobre a história do termo (disponível no link www.hepg.org/document/14/ ), os pesquisadores Sharon Nichols e David Berliner, respectivamente das universidades do Texas e do Arizona, afirmam que as provas que atrelam consequências de gestão educacional a seus resultados “são dramáticas e capazes de mudar vidas”. Como o movimento é incipiente no Brasil, não há consenso sobre a quais avaliações locais o conceito se aplicaria. Ao serem tomados como medida única no processo avaliativo, os resultados desses testes podem definir políticas públicas, como a de bonificação por desempenho (já que os resultados são atrelados ao acréscimo de salário para docentes). Outra aplicação possível do termo é para o Exame Nacional do Ensino Médio (Enem), que passou a ser usado nos processos seletivos das universidades públicas federais. O próprio Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep) usa outro termo para definir seus sistemas de testagem: “avaliações em larga escala”.

Antes da instituição do Índice de Desenvolvimento da Educação Básica (Ideb) em 2007, os resultados da Prova Brasil e do Sistema Nacional de Avaliação da Educação Básica (Saeb) eram usados apenas para que as redes tivessem um diagnóstico de seus alunos. Depois do Ideb, os usos para as notas passaram a ser diversos – um deles é justamente a prática de fazer rankings . “Até então, quem iria se preocupar com a média da Prova Brasil por estado ou município? Passamos de baixo para alto impacto”, afirma Francisco Soares, coordenador do Grupo de Avaliação e Medidas Educacionais, da Universidade Federal de Minas Gerais (UFMG), que não assina o manifesto, mas concorda parcialmente com ele. “Sou contra usar o Ideb para classificar escolas porque o índice reproduz o nível socioeconômico das escolas em alto nível. Já sabemos que as escolas de periferia vão mal nas provas. Precisamos superar isso”, alerta.

Para os integrantes do movimento brasileiro, é justamente este o processo ao qual estão sendo submetidas as redes de ensino locais: a uma pressão para que façam uma medição única no processo avaliativo dos alunos, quando, na verdade, a qualidade de ensino é fruto de diversos fatores. “A recomendação dos especialistas é que cada aluno possa ser alvo de mais de uma medida, preferencialmente que captem áreas de desenvolvimento diferentes”, explica Luiz Carlos de Freitas. É preciso levar em conta, por exemplo, o contexto socioeconômico do estudante. Ou a infraestrutura da própria escola que o atende. Nesse sentido, Freitas constata: não é possível deduzir que há boa qualidade de ensino só porque o aluno tem boa nota em português e matemática. Tampouco é cabível pagar bônus a professores a partir do nível de desempenho obtido por seus alunos. “Não se pode separar o efeito dos vários professores pelos quais os alunos passam, simultaneamente e entre anos. Um mau docente pode marcar o aluno por vários anos, não importando quão competente seja o professor do ano seguinte”, explica.

A afirmação encontra eco na edição de 2011 do Caderno de Resoluções da Confederação Nacional dos Trabalhadores em Educação (CNTE). Segundo o documento, a entidade endossa a visão de que “a avaliação deve ser processual, qualitativa e de caráter sistêmico e democrático”, na contramão “das propostas gerenciais de meritocracia”. Assim como em outros países, paralelamente ao que acontece no meio acadêmico, os sindicatos de professores também se manifestam contra os testes de alto impacto. Na Inglaterra, o boicote do Sindicato Nacional dos Professores ao SAT foi motivado, entre outros motivos, pela associação dos resultados da prova à prática de fazer rankings .

Há vozes contra o movimento. O ex-presidente do Inep e professor de economia da USP Reynaldo Fernandes classifica a atitude de protesto contra as avaliações de “petulante”. Para ele, nenhuma instituição pode ter o monopólio da interpretação dos resultados. Além disso, crê que o movimento estimula a não divulgação universal dos resultados. “Os estudos apontam que a divulgação de resultados melhora o desempenho dos alunos. Cada rede sabe com quem deve se comparar. Se você gosta de correr como hobby , não vai se colocar no mesmo patamar de quem é maratonista”, analisa.

Desvios significativos
Como os resultados dos testes são usados para tomar decisões sobre a rotina escolar e da rede, podem vir acompanhados de um problema difícil de ser contornado: as fraudes. O caso mais recente e que explicita esse tipo de percalço aconteceu na rede de Atlanta, no estado norte-americano da Geórgia. Em julho, após dez meses de investigação, o governo estadual indiciou 100 funcionários de 12 escolas por “violação de protocolo”. O relatório concluiu que as situações de cola (encontradas em 44 das 56 escolas avaliadas) aconteceram de maneira generalizada pelo menos a partir de 2009, e que um ambiente de medo e intimidação dominava a rede de Atlanta. “As colas foram decorrentes da pressão para alcançar objetivos dentro de um sistema movido por números”, diz o texto.

O caso de Atlanta chama a atenção para uma crítica feita por Freitas em relação ao Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep): não há divulgação dos índices de confiabilidade dos testes aplicados. O desvio padrão das medidas obtidas a partir das provas não está disponível para os pesquisadores. Voltando ao que ocorreu em Atlanta, em 32 das 55 salas de aula da escola de ensino fundamental Connally Elementary, o desvio padrão ultrapassou o valor de 10. Segundo o relatório, um desvio padrão da ordem de 10 nos dados analisados aponta que “a probabilidade de que o aluno tenha mudado a resposta para a alternativa correta sem a intervenção de um adulto é de um em um trilhão”. Em outras palavras: sem a cola, seria muito pouco provável que o aluno tivesse acertado as questões da prova. “Todas essas indicações da saúde da prova não são divulgadas no Brasil. É uma questão de polícia”, aponta Freitas.

Outro índice de confiabilidade passível de ser calculado é aquele que investiga o quanto a prova reflete os conteúdos aprendidos pelo aluno. “Especialistas no conteúdo da prova são convidados pelos governos para fazer esta análise. É feito um cálculo de concordância entre eles para cada ponto da matriz e dos itens da prova”, explica. Esses valores não são divulgados para as provas aplicadas nos âmbitos federal e estadual.

Transparência
Pelos motivos apontados acima, o diálogo com o Inep é considerado pelos pesquisadores como complicado. “Sua estrutura é desorganizada, e o órgão foi colocado na dependência de fornecedores externos da indústria educacional de avaliação”, diz Freitas, fazendo referência aos serviços de aplicação de prova, terceirizados pelo Inep. Uma prova da desorganização do órgão seria o fato de os boletins de desempenho da Prova Brasil de 2009 não terem chegado até agora às escolas. O Inep também não divulgou até o momento os microdados da Prova Brasil de 2009, informações que reúnem, entre outras, o perfil do alunado submetido à prova (idade, se foi a primeira vez que fez a prova, etc.) e as questões que foram acertadas. Com essas estatísticas em mãos, os pesquisadores podem investigar questões específicas da prova aplicada, e evidenciar quais são os gargalos de aprendizagem.

Para Francisco Soares, da UFMG, o problema é mais sério: ainda há pouca informação sobre o que os níveis de proficiência dizem sobre o aluno. “Se a escola tem uma média de 250 na Prova Brasil, podemos ter alunos cuja nota foi 400 e outros 100. Além disso, sabemos que alunos com nota 100 ‘não aprenderam’. Mas o que ele aprendeu nessa faixa?”, indaga. Ao mesmo tempo, o pesquisador lembra que o país não pode deixar de avaliar o que os alunos sabem, porque esse processo de verificação faz parte do direito público de aprender. “O que precisamos não é deixar de registrar os resultados, mas dar um sentido pedagógico a eles. Tendo verificado se o aluno aprende, é preciso saber quem é ele”, lembra. Da mesma forma, os integrantes do Movimento Contra os Testes de Alto Impacto não se dizem contra a avaliação em si, mas contra os usos que dela têm sido feitos.

O que se torna mais preocupante neste momento é o fato de que analistas situados em locais diversos no espectro político estejam olhando com ressalvas a maneira como as avaliações têm sido utilizadas. As restrições são variadas, indo da crítica ao uso excessivo das provas de larga escala nas políticas públicas a restrições de ordem técnica. Indício de que é hora de colocar o que está sendo feito em perspectiva.

Veja aqui a reportagem sobre o atraso no envio dos boletins de desempenho da Prova Brasil 2009.

A experiência de Vitória

Caroline Falco R. Fernandes é coordenadora do Movimento Contra Testes de Alto Impacto no Espírito Santo. Há um ano participa da implantação do Sistema de Avaliação da Educação Pública Municipal de Vitória (Saemv), que tem como pressuposto a concepção de que a avaliação é um processo contínuo. Em artigo sobre o Saemv, Caroline explica que não “se trata de um processo de mensuração do rendimento escolar dos alunos, mas de uma análise conjugada de diferentes fatores intra e extraescolares”. A qualidade do processo de ensino-aprendizagem é definida, portanto, por fatores como: insumos (recursos materiais e humanos), acesso e permanência (defasagem idade-série, reprovação/aprovação, evasão, entre outros), processos (pedagógicos e de gestão) e contexto socioeconômico (renda, grau de escolaridade, etnia etc.). Até o momento foram envolvidas 52 escolas de ensino fundamental no Saemv. Ainda incipiente, o sistema foi criado após a instituição do Programa de Avaliação da Educação Básica do Estado do Espírito Santo (Paebs) – o município de Vitória foi um dos dois a não aderir à proposta. “A legislação do Saemv proíbe a prática do ranking e da bonificação por desempenho”, explica Caroline. Para ela, o Ideb não é usado de maneira correta na maioria dos municípios brasileiros, já que o índice acaba servindo apenas para inferir se a educação está boa ou não. Em relação ao movimento do qual participa, a pesquisadora considera que ele poderia ter desenvolvido ações concretas no decorrer deste ano. “Como os testes de alto impacto foram adotados por muitas redes no país, o movimento se torna importante. Precisamos concretizar as ações propostas na carta de intenções”, diz.