Читать книгу Más allá de las pruebas/Beyond testing - Deborah Meier - Страница 9
ОглавлениеCAPÍTULO 1
Introducción
Como un ancla que es levantada luego de muchos años en el fondo de la bahía, arrastra consigo largas hebras de materiales pegados, el tema de la evaluación educacional necesariamente pone énfasis en muchos temas en educación, todos ellos unidos de forma inseparable a ella.
—Brenda Engel en Holding Values: What We Mean by Progressive Education
Para quienes hemos pasado nuestras vidas profesionales en escuelas y hemos pensado acerca de lo que requiere una buena educación, no siempre es fácil imaginar cómo ven el mundo quienes hacen las leyes. ¿Cómo esta o aquella política puede apoyar lo que estamos haciendo en las escuelas? Puede ser una distancia insalvable, llevando a algunos al cinismo. ¿Cómo escuelas enormes que tienen una sensación de anonimato pueden satisfacer las necesidades de niños con problemas? Y aun así se siguen construyendo escuelas del tamaño de pequeños pueblos. ¿Cómo pueden utilizarse fondos para escuelas públicas en escuelas privadas, cuando estas no deben responder al público y aceptan y expulsan estudiantes según su voluntad? Sin embargo, vemos fuertes partidarios de los bonos escolares en los más altos niveles del gobierno.
Quizás lo más preocupante es que en las últimas décadas hemos visto a los legisladores exigir pruebas estandarizadas cuyos puntajes están vinculados a decisiones de alto impacto, incluyendo el progreso de estudiantes, evaluaciones de profesores, calificaciones en la escuela y la evaluación de las mismas políticas educacionales. Cuesta trabajo comprender esto.
En su libro seminal Seeing like a State (1998), James C. Scott nos ayuda a ponernos en los zapatos de quienes hacen las leyes. Él propone que los legisladores simplifican el mundo para poder “verlo”. Utilizando esta generosa perspectiva sobre lo que son, al menos en nuestra perspectiva, políticas dañinas, las pruebas estandarizadas pueden ser entendidas como una especie de mapa. Los cartógrafos deben simplificar necesariamente el terreno complejo para poder tener esa perspectiva desde arriba. Pero, aunque esta perspectiva puede ayudar, es útil recordar que un proceso de simplificación –tal como el reducir un globo terráqueo en 3 dimensiones a una superficie en 2 dimensiones– necesariamente distorsiona las masas de tierra y agua y les da prioridad a algunas partes sobre otras. Scott entrega docenas de ejemplos sobre como los intentos de los legisladores de simplificar y administrar a un nivel micro el mundo que los rodea, causa daño a personas que son gobernadas por estas leyes, aunque las intenciones del legislador parezcan ser benévolas.
Las pruebas estandarizadas de alto impacto son los datos que usan los legisladores para evaluar y racionalizar las políticas educacionales. Estos componen los datos que luego constituyen su “mapa” simplista y fallido de las escuelas. Sin embargo, para quienes hemos visto como estas políticas afectan a los estudiantes y a las escuelas que nos importan, sabemos que este mapa está distorsionado y que prioriza datos que presentan fallos; y esto se podría evitar. Las evaluaciones de estudiantes y escuelas son importantes; son las herramientas que utilizan los educadores y las comunidades escolares para entender las necesidades de ambos, para evaluar cómo les está yendo y debemos prestarles cuidada atención. Pero algunas evaluaciones son mejores que otras.
Desafortunadamente, el imaginario público tiende a confundir la responsabilidad de rendir cuentas para las escuelas con las “pruebas estandarizadas de alto impacto”. De seguro queremos asegurar la rendición de cuentas, queremos asegurarnos de que nuestras escuelas están siendo efectivas y que el futuro de nuestra nación –nuestros niños– están en buenas manos. Pero el crecimiento basado solamente en los resultados de pruebas estandarizadas no es una forma legítima de asegurar esta rendición de cuentas, a pesar de lo que puedan decir presidentes, gobernadores, superintendentes, académicos y periodistas. Incluso los agentes inmobiliarios usualmente publican los resultados de las escuelas locales en sus sitios web, utilizando esta información para valorizar y vender propiedades.
Con el tiempo hemos visto como los puntajes obtenidos en estas pruebas estandarizadas se han ligado a decisiones de alto impacto en torno a la evaluación de estudiantes, profesores, escuelas y políticas educacionales, especialmente a partir de la implementación de la ley No Child Left Behind [Que ningún niño se quede atrás] en el 2002. Pero muchos padres y educadores ya han comenzado a notar que estos puntajes no se condicen con una rendición de cuentas. Por ejemplo, en una encuesta Phi Delta Kappa/Gallop reciente (Bushaw & Calderon, 2014) un 68% de los padres encuestados reportaron dudar que las pruebas estandarizadas ayudaran a los profesores a saber qué enseñar. Y la ley No Child Left Behind, la cual requiere pruebas estandarizadas anuales para cada curso e implica consecuencias ligadas a esos resultados, empezó a ser mal vista, recibiendo más evaluaciones negativas que positivas en encuestas de opinión antes de que en el 2015 se le cambiara el nombre a Every Student Succeeds Act (ESSA) [Todos los estudiantes tienen éxito] en su reautorización. A pesar de esto, las pruebas estandarizadas siguen siendo la principal herramienta utilizada por legisladores y otros para juzgar el desempeño de escuelas y estudiantes. Bajo la ley ESSA, las escuelas están obligadas a evaluar a sus estudiantes con pruebas estandarizadas cada año desde el tercer grado1 hasta el octavo y al menos una vez en secundaria. Las consecuencias ligadas a estos resultados ahora están bajo jurisdicción estatal en vez de federal, pero la mayoría de los estados han optado por vincular decisiones de alto impacto, como es la evaluación de estudiantes, profesores y/o escuelas, a partir de los resultados de estas pruebas.
Algunas dudas sobre el uso de pruebas en las escuelas
Todos hemos tenido alguna experiencia con pruebas estandarizadas y probablemente ya nos hemos formado una opinión propia acerca de qué tan buenas son para medir nuestro conocimiento y habilidades. Mi propia aventura (de Deborah) con pruebas estandarizadas incluyó una serie de “revelaciones” que noté a partir de información confusa con la que me encontré cuando me inicié como profesora hace más de cinco décadas. Personalmente, yo no había rendido ninguna prueba estandarizada durante mis años de enseñanza escolar. Cabe la posibilidad de que haya rendido un test de coeficiente intelectual en algún momento, según lo que mis padres me han comentado posteriormente. Pero más allá de esto, yo no tuve idea de la existencia de este tipo de instrumento de evaluación, a diferencia de las pruebas que eran diseñadas y corregidas por mis profesores buscando explicarme qué cosas había hecho correctamente y qué no. Aún más, en mi escuela se motivaba a que los estudiantes conversaran sobre sus notas con sus profesores. (Nota: Era una escuela independiente de la Ciudad de Nueva York y los estudiantes en su mayoría eran de clase acomodada.)
En 1951, decidí trasladarme a la Universidad de Chicago luego de dos años en Antioch College. Mi aceptación estaba condicionada a mis resultados en sus pruebas estandarizadas, con algunas de ellas incluyendo temas que nunca había estudiado. Me fue muy bien, y esto me desconcertó. El hombre con quien me casé –quien no había completado la secundaria por razones complicadas no relacionadas en nada con dificultades académicas– también pudo entrar a la Universidad de Chicago ¡En base a los puntajes de la prueba!
Mi siguiente experiencia fue cuando mi hijo Nicky rindió una prueba como un favor a una amiga que, como requisito para uno de sus cursos, debía administrar una prueba de este tipo. Ella notó que frecuentemente él se equivocaba en las preguntas fáciles, pero casi nunca fallaba en las más complejas. Su puntaje, en pocas palabras, era inútil. El ejemplo que ella me dio de una de las preguntas fáciles era sobre qué hacer si te mandaban a una tienda a comprar un tipo de pan que no había en esa tienda. Las opciones incluían ir a otra tienda, elegir otro tipo de pan o devolverte a casa. Él eligió esta última; en nuestro vecindario la siguiente tienda más cercana implicaba cruzar una calle altamente transitada y caminar otras cuatro cuadras, con sus ocho años esto estaba fuera de los límites permitidos. Comprar otro tipo de pan, la respuesta correcta, no era el tipo de riesgos que le gustara tomar.
Nicky rindió también una prueba estandarizada de lectura de la Ciudad de Nueva York (NYC) en el otoño de ese mismo año, nuestro primer otoño en NYC, y la escuela recomendó apoyo académico por su bajo puntaje. Me sentí desorientada, ya que era una lector fluido y voraz de cualquier libro que pudiese obtener. No acepté las clases de apoyo y cuando en el test de la primavera le fue mejor, la escuela dejó de insistir con esto. Mientras, conseguí una copia de la prueba de tercer grado (estaba trabajando en una escuela en ese momento) y le pedí que me mostrara como había afrontado la prueba. Descubrí que él consideraba que si el no cubría el pasaje sobre el que trataba la pregunta estaba haciendo trampa: “Sino siempre vas a obtener la respuesta correcta”. Nadie, me dijo, le había dicho que debía hacer esto. Fue su propia idea. Le pareció obvio.
Cuando se trataba de elegir respuestas de alternativa le pregunté por un par que había tenido mal. Me dijo que no le sorprendía, tenía la idea de que querían que marcara la B, pero él en verdad le parecía que D era más apropiada, “Pero” protesté, “¿Cómo iban a saber cuál había sido tu razonamiento?” Me respondió: “Lo expliqué en los márgenes.”
Cuando mi clase de kindergarten pasó a segundo grado (cuando NYC empezó a implementar pruebas para los estudiantes), decidí hacerles preguntas similares sobre sus respuestas y las estrategias que habían seguido. Obtuve un pequeño fondo de investigación de una fundación para este fin y grabé las sesiones. Intenté diferentes técnicas, por ejemplo, les leí algunos de los pasajes en voz alta para ver si esto afectaba sus respuestas, pero no mostró mejora. Cuando les pedí a los estudiantes que me explicaran su lógica quedé sorprendida. Su dificultad no tenía que ver con una incapacidad de leer los pasajes de manera apropiada, por lo mismo mi lectura en voz alta no solucionaba nada. Su lógica al momento de contestar los ítems de forma incorrecta parecía un excelente raciocinio, basado en la evidencia presentada. A partir de esto escribí un pequeño libro sobre el tema para City College bajo el título Reading Failure and the Tests (1973).
Estaba también sorprendida por la cantidad de padres que, cuando les preguntaba sobre cómo leía su hijo, me daban el puntaje de la prueba, pero no tenían idea lo que significaba y frecuentemente parecían confundidos porque su hijo estaba leyendo mejor de lo que les indicaba el puntaje.
También me llamó la atención una noticia que se quejaba porque, a pesar de que por años se venía aumentando el presupuesto para las escuelas públicas, todavía se mantenía el mismo porcentaje de estudiantes que leían sobre o bajo el nivel del curso. Este periodista de educación no sabía que los puntajes son simplemente un reporte que establece el nivel de curso en la mediana; de manera que los porcentajes se mantienen estáticos. ¿Esperábamos acaso que niños pobres superaran a niños de clase media y acomodada en los rankings? Los puntajes que indican que niños de clase alta rinden mejor que los niños de clases menos acomodadas no debiesen usarse como evidencia para disminuir los fondos para aquellos que más los necesitan.
De a poco también me fui dando cuenta de la cantidad de trampas que estaban ocurriendo, especialmente en esos años en que no era difícil saber que era lo que iba a estar en la prueba. Me sorprendía cada vez que periodistas o superintendentes se tomaban en serio informes que hablaban sobre grandes diferencias en los puntajes de una escuela, o los puntajes de un profesor en comparación de otro. Me dio vergüenza descubrir que una profesora que me había informado que había hecho trampa y que temía que se dieran cuenta, todavía se jactaba sobre el puntaje de sus alumnos al año siguiente.
Recuerdo un caso en que una historia en los medios celebraba a una escuela del Lower East Side porque sus puntajes habían subido significativamente. Descubrí que esa escuela, durante el año en cuestión, se había convertido en el sitio para dotados y prodigios del distrito. ¿Qué se hace frente a eso?
Empecé a intentar explicarles cada vez más a los chicos acerca del test –incluyendo algunas pistas sobre cómo proceder para mejorar sus suposiciones y nunca dejar una pregunta sin contestar. Los hacía crear pruebas para sus compañeros para que pudieran tener una mejor noción de lo que intentan hacer las personas que crean las pruebas. Les demostré que, porque los conozco bien, yo podría diseñar una prueba en la que le fuera mejor a Jackie al igual que una que favoreciera a otros. Ayudó un poco –más que nada, en qué tan seriamente se tomaban los resultados, ahora estaban menos ansiosos. Sabía de igual forma que esto podría llevar a resultados negativos si es que los estudiantes dejaban de tomar en serio la prueba. Sin embargo, yo sentía que el explicarles que los ítems se iban complejizando a medida que avanzaban en la prueba los reconfortaba, y que en verdad son esos pocos últimos ítems los que estaban pensados para que muy pocos chicos los respondieran correctamente.
Me di cuenta de que mi habilidad para tomar pruebas estandarizadas estaba relacionada directamente con mi capacidad de entender cómo veían el mundo las personas que habían diseñado la prueba. Y lo que estos y otros adultos querían que yo respondiera. El problema era que las experiencias pasadas de mis estudiantes los habían llevado a una trampa. Ellos también contestaban con aquello que creían que los adultos aprobarían –pero la experiencia los dirigió a conclusiones erróneas. Las experiencias de mis estudiantes, sus familias y comunidades eran diferentes a las de quienes diseñaban las pruebas y a las de los niños que ellos tenían en mente al decidir qué respuestas eran “correctas”. Mis estudiantes tenían suficiente vocabulario en cuanto al número de palabras, pero no eran las palabras que habían sido seleccionadas para la prueba. En resumen, su propia inteligencia intuitiva y sofisticada era más una desventaja que un beneficio.
Claramente mi base de conocimiento –haber hablado y leído con y para los niños– me había dado una mejor base para evaluar sus habilidades y conocimientos. Lamentablemente, los niños y sus padres tenían demasiada confianza en las pruebas y esto los había conducido a un sentimiento de desesperación e incompetencia: “Todavía estoy bajo el nivel del curso no importa cuánto me esfuerce o cuánto crea que he mejorado”. Es por esta razón que en la Escuela Primaria Central Park East (CPE) desarrollamos una escala diferente de lectura junto a una forma diferente de presentar la información a los chicos y sus familias. También les explicamos todas las razones por las cuales sus puntajes en las pruebas estandarizadas no representaban sus habilidades –incluyendo error de medida estándar, las cuales eran bastante considerables. Así que grabamos a los niños leyendo y desarrollamos una escala que pudiésemos usar de forma confiable entre nosotros y también para las familias. Los chicos y sus padres disfrutaban de escuchar esas grabaciones a lo largo de los años y ver que se reconocía su progreso. La escala incluía lectura, hablar acerca de lectura asignada y conversaciones sobre aspectos de leer. Y continuamos apoyándonos en un número creciente de evaluaciones diferentes a las pruebas estandarizadas.
El poder de los portafolios
Cuando asumí el cargo de directora de la Escuela Secundaria Central Park East, estaba sorprendida de que tanto los estudiantes como las familias tomaron tan en serio y con tanto respeto los portafolios y sus presentaciones (véase el capítulo siete). Les habíamos explicado que ellos estaban haciendo algo similar a lo que hacen los candidatos a doctorado cuando presentan sus tesis a sus comités, o también algo más cercano a lo que los empleadores hacen cuando evalúan candidatos para trabajos que requieren habilidades y comprensión real. Ellos –profesores y empleadores– en lo posible buscan evaluar a los candidatos en base a su trabajo real y a las explicaciones que estos dan sobre cómo hicieron su trabajo. También se acercaba al sistema profesional desarrollado por la Junta Nacional de Estándares Profesionales de Enseñanza (yo participé en su junta fundadora). Su sistema incluía portafolios y videos de enseñanza real seguido por conversaciones y explicaciones acerca de porqué habían hecho tal o cual cosa.
La autenticidad del proceso era impresionante para los chicos. Rara vez cuestionaban su precisión, y si un profesor o un estudiante, o la familia tenían dudas acerca de los resultados, siempre podíamos repetir la evaluación teniendo en cuenta sus comentarios. Tenían la oportunidad de cuestionar nuestras conclusiones y algunas veces incluso hacernos cambiar de opinión. Nos ofrecía a nosotros, como profesores, una oportunidad para entender de mejor manera los trabajos de otros y cómo nuestros estudiantes entendían su propio trabajo. El involucrar evaluadores externos, los padres y estudiantes más jóvenes también nos daban información útil para mejorar nuestro trabajo.
Era tan impresionante que, en retrospectiva, claramente debimos haber usado un método similar para pasar del sexto al séptimo grado, del octavo noveno y del decimos al onceavo. En estas ocasiones utilizamos un acercamiento menos riguroso y formal que estaba basado prácticamente en la misma idea, pero estaba apoyado principalmente en nuestras intuiciones individuales y menos en el diálogo abierto entre adultos observantes y los mismos estudiantes.
También era muy útil al final del doceavo grado la reflexión personal obligatoria que debían escribir como autoevaluación, sobre sus planes para la próxima fase de su vida e ideas sobre mejoras o cambios que estas prácticas necesiten (véase el capítulo tres). Esto no tenía ningún tipo de puntaje, pedir una oportunidad para que las familias, los estudiantes y los profesores reflexionaran en conjunto acerca de las formas en que cada uno podía ser de ayuda. Debimos haberlo empezado antes.
El hecho de que durante todo este proceso el juicio y la experiencia de los adultos era respetada y mostrada abiertamente a los estudiantes era un aspecto importante del diseño. Creíamos que les ayudaría en el futuro a ver que la adultez y la experiencia como algo altamente valioso –¡aunque no perfecto! Por esto no nos sorprendía cuando profesores universitarios y los encargados de admisión nos comentaban acerca de estas cualidades en nuestros graduados, cómo también de la facilidad que tenían para participar en discusiones con adultos.
Argumentos en contra de las pruebas estandarizadas de alto impacto
En retrospectiva, debimos haber sabido mucho antes que depender de pruebas estandarizadas de alto impacto para asegurar calidad en las escuelas, no era inevitable ni deseable. La historia de las pruebas estandarizadas al principio del siglo XX es un recordatorio de que la práctica debió haber sido criticada más profundamente desde antes. Por ejemplo, La falsa medida del hombre (The Mismeasure of Man, 1996), el tratado de Stephen Jay Gould sobre la historia de la craneología y los primeros intentos de realizar pruebas estandarizadas, debiese ser lectura obligatoria. Como lo presenta Gould, sicólogos tales como Alfred Binet y Lewis Terman empezaron el movimiento de las pruebas estandarizadas con pruebas de CI. Estas pruebas median la inteligencia de quien estaba siendo evaluado a partir, principalmente, de un número limitado de preguntas. De igual forma como los profesionales de la craneología afirmaban que sus evaluaciones de las cavidades de la cabeza medían supuestamente la inteligencia, estas nuevas pruebas fueron utilizadas para afirmar que las personas de piel negra o de piel morena que las rendían eran menos inteligentes que aquellos de piel blanca. Estos resultados han sido citados por movimientos eugenésicos como evidencia para discriminar racialmente en contra de nuevos inmigrantes. Esto por sí solo debería haber sido una señal de advertencia de que no serían apropiadas para ser utilizadas en escuelas. Pero se abrieron paso, alcanzado a un número de estudiantes cada vez mayor y siguieron mostrando que los estudiantes blancos recibían mayores puntajes que estudiantes de piel negra o morena. Esto a pesar de que se han realizado múltiples estudios sobre la precisión de las pruebas estandarizadas y se ha demostrado que estas poseen sesgos y efectos dañinos en decisiones de alto impacto ligadas a ellas.
Es importante considerar que las pruebas estandarizadas afirman medir el conocimiento de quien las rinde, pero están basadas en una muestra pequeña del conocimiento del evaluado y nunca en la totalidad de este. Entonces, ¿Cómo puedes saber si la muestra representa la total extensión de conocimiento? Nunca podrás saberlo, por lo tanto, los resultados de las pruebas, por definición, deben tener un amplio margen de error en el muestreo, incluso si asumimos que las preguntas en sí mismas no tienen un sesgo hacia las fortalezas particulares de algunas personas por sobre las de otras; midiendo conocimiento que no debiese ser medido, pero que los estudios han demostrado que sí está siendo medido.
FairTest, una organización que ha intentado monitorear la imparcialidad de pruebas desde 1985, ha notado que los puntajes del SAT2 presentan una correlación perfecta con la riqueza de la familia (FairTest, 2015). Había excepciones, pero no muchas. Cada US$20.000 de ingreso familiar era correlativo con puntajes más altos en la prueba (véase también Rampell, 2009). Varias organizaciones han continuado investigaciones del mismo tipo de las que yo conduje a mediados de los sesenta, cuando hacía clases en el Harlem Central. Estas organizaciones confirmaron una suposición que Jay Rosner de Princeton Review y su colega William Kidder (2002) harían décadas más tarde: los ítems que eran puestos en las pruebas estandarizadas habían sido experimentados en campo con niños reales. Cualquier ítem en el cual, por cualquier razón, niños de piel negra rendían mejor que los de piel blanca no era utilizado. Estos ítems eran considerados sicométricamente inválidos. Los ítems de la prueba eran presentados para que los puntajes se alinearan con la curva predicha de puntajes, con los niños que se sabía que tenían un mayor éxito en la escuela y en la vida en el extremo de arriba y viceversa para los niños de barrios de menores ingresos. Personalmente pude ver, mientras hablaba con los niños acerca de las respuestas, como funcionaba esto y me asombró la sutileza con la cual los ítems recogían las diferencias culturales y ambientales que se daban entre los dos grupos de niños.
Así que el uso continuo de pruebas estandarizadas para decisiones de alto impacto dentro y acerca de las escuelas continúa causando daño y una creciente cantidad de investigación lo ha demostrado (Au, 2007, 2009, 2011; Berliner, 2011; Giordano, 2005; Knoester & Au, 2015; Knoestes & Parkison 2017; Kohn, 2000; Meier, 2002; Meier & Wood, 2002; Nichols & Berliner, 2007; Sacks, 1999). La lista de razones por las cuales las pruebas estandarizadas no debiesen recibir el peso que se les otorga hoy en día es larga e incluye las siguientes:
1. Las pruebas les quitan las decisiones a las comunidades escolares, a los profesores y a los estudiantes. Aunque diferentes escuelas y profesores a menudo tienen diferentes misiones y énfasis, a todos se les exige que utilicen las mismas pruebas, para las cuales el contenido y los puntajes de corte no están determinados en un sentido democrático.
2. Enseñar para obtener mejores puntajes en la prueba tiene el efecto de reducir el currículum y el potencial para el crecimiento de los estudiantes en áreas que no están siendo evaluadas por la prueba.
3. Los resultados de las pruebas tienen una fuerte correlación con raza y clase y por esto proveen una justificación “científica” para las desigualdades raciales y de clase en la sociedad y en las escuelas.
4. Asignarle públicamente una nota a una escuela basada en los resultados de las pruebas, como hacen muchos estados, en conjunto con programas de libre elección de escuelas han demostrado exacerbar la segregación.
5. Las pruebas quitan tiempo de instrucción importante a los estudiantes y profesores, ya que estas pruebas no son evaluaciones auténticas. Para que una evaluación sea auténtica debe ser llevada a cabo mientras los estudiantes están realizando un trabajo que es intrínsecamente valioso y que vale la pena hacer.
6. Los estudiantes generalmente no se ven motivados a cambiar hábitos de trabajo para obtener mejores resultados en las pruebas.
7. Las pruebas le dan la idea a los estudiantes de que existe solo una respuesta correcta a cualquier pregunta. Esta es una idea altamente engañosa cuando le preguntas a los estudiantes algo que no sean hechos irrefutables.
8. Los puntajes de las pruebas son recibidos meses después de que estas son aplicadas, y por lo tanto no son útiles para los actuales profesores de los estudiantes.
9. Las pruebas no están alineadas con lo que creemos debiese ser el propósito principal de las escuelas públicas: el preparar a sus graduados para que participen efectivamente en una democracia al ejercitar el juicio, sopesar evidencia y defender ideas.
Anhelando saber más sobre aprender
Es fácil entender porque la gente quiere creer que las pruebas pueden medir de forma precisa el conocimiento. Estas son promocionadas como herramientas para medir el aprendizaje de los estudiantes de manera eficiente, objetiva y precisa en diferentes materias, que después pueden ser fácilmente comparadas entre estudiantes, entre escuelas y en el tiempo; pueden ser usadas para evaluar y mejorar la instrucción. Realmente suena posible. Con estos puntajes, tanto a los estudiantes, a los profesores y a los administradores se les puede hacer responsables por los logros demostrados.
Pero ¿cómo se le ha dado tanto poder a las pruebas estandarizadas dentro de la educación? De hecho, la opinión pública estadounidense siempre le ha otorgado mucha legitimidad a las evaluaciones que hacen las escuelas del conocimiento y el aprendizaje de los estudiantes, incluso antes de las pruebas estandarizadas. Empujadas por un deseo un tanto ilusorio, las instituciones educacionales a través de los años han elegido, de forma errónea, designarle un número preciso al conocimiento, lo que luego ha sido utilizado para comparaciones y para establecer un ranking. Cubriendo las pruebas con jerga estadística y científica y escondiendo los aspectos clave del proceso –como por ejemplo el criterio para determinar las preguntas de la prueba y el nivel de “manejo” que es establecido para puntajes particulares– los que promueven estas pruebas como medidas adecuadas de conocimiento y habilidad han deslumbrado a estudiantes, padres y al público en general.
Ya es hora de que nos demos cuenta que las pruebas estandarizadas son una ilusión. Es imposible que reduzcan un problema fundamentalmente complejo y misterioso –cómo evaluar el conocimiento (y/o las habilidades, experiencias y disposiciones) de un niño– a un simple puntaje. Esta es una forma fallida y engañosa de medir responsabilidad, con serias desventajas. Tratar de entender cómo un estudiante particular ha mejorado desde un punto A un punto B, comprendiendo que nuestras evaluaciones son estimaciones aproximadas, es un esfuerzo legítimo, pero el comparar y hacer rankings de estudiantes siempre ha sido moralmente sospechoso y no debiese ser una tarea de la educación pública.
De hecho, es apropiado que tanto los educadores como el público general tengan una posición mucho más crítica acerca de las declaraciones que hacen las escuelas sobre los conocimientos y las habilidades de los chicos. Los legisladores que han implementado pruebas estandarizadas de alto impacto han abusado de la confianza que se pone en ellos. Aunque creemos que las escuelas juegan un rol importante en evaluar el aprendizaje y los conocimientos de los estudiantes, es más honesto y apropiado –y merecedor de una mayor confianza– el posicionarse desde la humildad acerca de qué es accesible en términos de las habilidades y el conocimiento de los niños, y tener un tono alentador para los estudiantes sin importar el nivel de desarrollo en que se encuentren. Existen poderosas maneras de obtener mucha información sobre los chicos y cómo ellos aprenden, y el evaluar ese conocimiento y esas habilidades es una parte esencial de las tareas de la educación. Y, ya que toda forma de evaluación es limitada, se necesita una gran variedad de ellas. En este libro describimos siete formas básicas de evaluación, pero recomendamos combinar varias evaluaciones para obtener una comprensión más completa del conocimiento y progreso de los estudiantes.
Las pruebas tienen algunos beneficios si son usadas inteligentemente
¿Estamos entonces en contra de todas las pruebas que hemos utilizado por tantos años? Sí y no.
No. Nuestra crítica no está respondiendo a las múltiples formas de pruebas en aula que los profesores diseñan como una forma de entender mejor lo que sus estudiantes “entienden” o “no entienden” o, en ese sentido, pruebas en el aula que son usadas en parte con la intención de poner nota a los estudiantes. Por supuesto, también tenemos opiniones acerca de cuándo y si una prueba particular es o no útil.
Sí. Estamos discutiendo programas de pruebas que son obligadas por las autoridades y tienen efectos substanciales en las escuelas, los profesores o los estudiantes. Adicionalmente, estamos argumentando en contra de las pruebas que no están abiertas para la revisión de los estudiantes o los profesores, las que afectan la cobertura y el diseño del currículum o las que afectan principios pedagógicos particulares que algunas escuelas o profesores usan. Creemos que estas formas de pruebas son dañinas para los propósitos sociales y educacionales de las escuelas. No existen pruebas estandarizadas que puedan medir de forma precisa el aprendizaje con integridad y justicia. Punto.
Pero, más allá de las sugerencias en los capítulos siguientes, queremos presentar el cuestionamiento sobre formas en que prácticamente cualquiera medición –ya sea prueba u otra herramienta– puede ser útil para los profesores, los estudiantes y la sociedad incluso si estas son “estandarizadas”. Incluso si se usa la misma medición, ítem, foto o párrafo para todos aquellos que están siendo evaluados, el muestreo cambia algunas de las preocupaciones que surgen con estas evaluaciones, porque ya no están ligadas a consecuencias de alto impacto directas ni a la evaluación de estudiantes particulares. Con muestreo nos referimos a seleccionar estudiantes solo para proveer estimados del aprendizaje y no agregarle decisiones de alto impacto a estos resultados. Estas muestras nos permiten hacer las preguntas de mayor profundidad, puede ser diseñadas como entrevistas y pueden tener el mismo valor que solicitar respuestas orales o escritas, pero previniendo que impacten en un estudiante, profesor o escuela en particular. Además, si las preguntas se hacen públicas a la comunidad, incluyendo los estudiantes y profesores, se pueden criticar tanto las preguntas como las respuestas, y esto realmente ayuda. Como en las encuestas, saber cómo se hace una pregunta, qué alternativas son ofrecidas y qué elementos componen el instrumento de puntuación es esencial para cualquier interpretación razonable.
Algunas de las evaluaciones que describimos en este libro son, de hecho, generalmente usadas sobre una base muestral. El proceso de Pat Carini (véase capítulo cinco) es bastante extenso e involucra múltiples participantes. Aunque generalmente esté limitado a estudiantes que son particularmente desafiantes para el profesor, es un muestreo de población que nos entrega perspectivas sobre muchos otros chicos a los cuales enseñamos.
Los portafolios de graduación o las evaluaciones o de rendimiento usadas por las escuelas Consortium (véase capítulo diez) a veces incluyen pequeños controles y están basados en una idea similar que busca destacar el muestreo en el sentido que las pruebas se centran en una pequeña porción del conocimiento o las habilidades del estudiante. Mientras que los estudiantes, por ejemplo, no hacen presentaciones que cubran la totalidad de lo que han estudiado (y aprendido), la forma de la presentación y cómo se lleva acabo su defensa nos entrega una idea mucho más poderosa sobre como un estudiante puede abordar materias o conceptos que una prueba tradicional. Es un tipo de muestreo que nos deja ver cómo es un estudiante en cuanto a su aprendizaje y qué tal él o ella podrá manejar estudios en el futuro. Pero entendemos que estos son solo estimados.
Incluso las múltiples formas de evaluación de lectura que discutimos aquí están, en muchas formas, basadas en el muestreo. Por supuesto, todo tipo de pruebas solo es una muestra de cómo el estudiante responde al material un día específico en comparación con otro, pero esto también sucede con otras formas de evaluación. Cuando los profesores se sorprenden con los resultados de las pruebas estandarizadas que son evaluadas en otro recinto, no tienen la posibilidad de pedir que se vuelva a impartir la prueba o ignorar los resultados por ser poco precisos. Ahora bien, en el caso de las evaluaciones que presentamos en este libro, asumimos que son específicas para un momento, a pesar de que intentamos diseñarlas para que puedan servir a propósitos más amplios. Sin embargo, tenemos la posibilidad de cuestionar la herramienta de evaluación junto con el cómo y el porqué el evaluador llegó a una conclusión específica. En la escuela Mission Hill en Boston, pusimos en marcha una escala de cero a cinco sobre fluidez en la lectura para los cursos desde kínder hasta octavo, y pasamos una cantidad de tiempo considerable tratando de acordar qué indicaba cada número y cómo lo describiríamos a los chicos y a sus familias. Esto era muy importante, ya que las categorías de 0–5 cubrían un gran terreno entre no poder leer y leer fluidamente cualquier cosa apropiada a su edad o curso. Es por esto que se llevaban a cabo múltiples evaluaciones que apuntaban hacia la grabación de esta evaluación sumativa (la que en Mission Hill era grabada en video o en audio) y que funcionaban como respaldos importantes.
Los números son inútiles sin descriptores
Lo que una buena evaluación necesita es un descriptor preciso y no una comparación que categoriza de mejor a peor. Probablemente, no hay forma de evitar que alguien convierta cualquier cosa en una herramienta comparativa de alguna forma, lo que podría llegar hacer un instinto humano saludable. Así, por ejemplo, Mission Hill tenía el objetivo de que todos los chicos estuviesen en el nivel cuatro de fluidez lectora en algún momento antes de terminar su cuarto grado. Si notábamos una baja, nos hacíamos preguntas, y algunas de ellas nos llevaban a revisar los instrumentos o nuestra propia práctica.
Pero es importante recordar que cualquier orden de clasificación es engañoso, y rara vez tan importante como lo hacen parecer. No importa cuánto practiquemos, o qué tan obediente son todos los chicos, cuando los llamemos a formarse luego del recreo, siempre la mitad de ellos estará enfrente y un solo niño estará al final. Es también una fortuna que no todos los niños tienen tanto ímpetu por estar en el frente. De igual forma, a algunos estudiantes no les importa tanto el obtener la respuesta correcta en las pruebas, sino la integridad de sus respuestas y que puedan defenderlas. Enseñarles trucos para adivinar o cómo meterse en la estructura mental de quienes diseñaron las pruebas para algunos chicos puede ser destructivo y, quizás, inmoral en sus propios códigos de ética.
Aún más, con respecto a esa pretensión de exactitud en las pruebas que no pueden ser evaluadas con puntaje, la idea de aprobado/reprobado es una locura. El error de medida es sustancial de acuerdo con los diseñadores de pruebas estandarizadas y puede fallar por mucho. Cuando solíamos obtener puntajes que pretendían medir el nivel del curso –6,3 implicaba el puntaje medio para estudiantes en el tercer mes del sexto grado– de hecho, no lograba medirlo. Tal cual como formarse en línea, solo podía decirnos a nosotros y a los padres que obtuvo más o menos respuestas correctas, y luego proveer un valor numérico para conectar con las respuestas. La mayoría de las pruebas estandarizadas actuales entrega lo que se llama un puntaje “normado políticamente”. Un grupo de expertos decide qué puntajes deben ser considerados “excelente”, cuales “bien”, cuáles “suficiente” y cuáles “reprobado”. Todavía puedes alinearlos, pero la decisión de qué hace que el 86 sea lo suficientemente bueno, pero 83 no, es una decisión que toma alguien a la distancia y en una posición mucho más alta en una escala de poder.
Toda evaluación requiere juicios
En resumen, no importa si lo llamamos evaluar a un estudiante, a una clase o a un profesor: siempre es una decisión subjetiva. Quien toma esta decisión podría estar equivocado. Conversar abiertamente sobre cómo llegamos a nuestras decisiones y la evidencia que usamos cuando necesitamos tomar una, ayuda significativamente. Qué tan seguido y con qué propósito tomamos estas decisiones debería hacer algo que cada comunidad escolar evalúe en conjunto y llegue a un “paquete” de acercamientos que satisfagan a los tres grupos –estudiantes, profesores y familias– al ser útiles, comprensibles y tolerables para cada uno. Al igual que las decisiones tomadas por aquellos con mayor poder, debiese siempre haber mecanismos para apelar a las decisiones. Probablemente nadie opine perfecto de nosotros –ni nosotros lo hacemos– pero algunos intentos de juicios hacen daño considerable y otros son altamente útiles para ayudar a todos los involucrados. Esto último es lo que buscamos con este libro. En términos escolares, esto significa que todos los grupos involucrados, como mínimo, deberían tener acceso a toda la evidencia involucrada y deberían tener una oportunidad de ofrecer interpretaciones alternativas cuando y si es que hay consecuencias que los podrían ayudar o dañar. Ese es el principio número uno en la búsqueda de una evaluación justa.
Acerca de las siete evaluaciones
Las evaluaciones que elegimos para perfilar y describir en este libro están divididas en siete categorías básicas:
1. Autoevaluaciones de estudiantes: oportunidades para motivar a los estudiantes a que piensen críticamente sobre su propio trabajo, utilizando herramientas u ocasiones estructuradas, tales como reuniones familiares, rúbricas o la colección de reflexiones llamada recuerdos.
2. Observaciones de parte del profesor acerca de los estudiantes y su trabajo: profesores actuando como observadores o etnógrafos, anotando, recogiendo, sintetizando y analizando miles de piezas de información acerca de sus estudiantes a medida que ellos hacen su trabajo diario.
3. El proceso de revisión descriptiva: una forma organizada de recoger observaciones y otras piezas de evidencia, enfocándolas alrededor de una pregunta que funciona como marco y discutiendo la pregunta, o un trabajo particular, o evaluación del chico con un grupo de adultos.
4. Entrevistas de lectura y matemáticas: evaluaciones de las habilidades de comprensión lectora y matemática de los estudiantes utilizando procesos tales como escuchar grabaciones de estudiantes leyendo con un adulto, seguidas por preguntas de comprensión de un adulto, el evaluador.
5. Portafolios y defensas públicas del trabajo de estudiantes: portafolios del trabajo de estudiantes, junto con defensas públicas de su trabajo llevadas a cabo por los estudiantes, las que constituyen evidencia significativa, juzgada por un panel (generalmente de padres, profesores y miembros de la comunidad), de que el estudiante ha alcanzado los estándares de la institución.
6. Evaluación de las escuelas por parte de expertos externos: Evaluación de las escuelas llevadas a cabo por un equipo de expertos externos. Este proceso generalmente consiste en un período de autoestudio, en el que la escuela recoge un rango de evidencias sobre lo que han logrado en el período previo, alineado a la misión declarada de la escuela. Luego de revisar estos documentos, el equipo revisor pasa un período dentro de la escuela, verificando cómo esta autoevaluación se condice con observaciones directas y entrevistas llevadas a cabo con los integrantes de la comunidad escolar. Luego el equipo entrega sus resultados.
7. Juntas escolares y reuniones ciudadanas: tanto las reuniones de la junta escolar local y reuniones ciudadanas al estilo de Nueva Inglaterra son formas de tomas de decisiones democráticas y una forma de evaluar a las escuelas. En este tipo de reuniones se les solicita a los líderes escolares que se dirijan a ella y que presenten presupuestos y evaluaciones de las escuelas locales para que las comunidades las puedan revisar.
Cada una de estas evaluaciones es más efectiva que las pruebas estandarizadas. También recomendaríamos combinarlas, porque en conjunto ellas pueden crear un poderoso sistema de evaluación. Por supuesto, estas no son las únicas evaluaciones que son más efectivas que las pruebas estandarizadas. Se podrían escribir muchos libros como este acerca de mejores tipos de evaluación. Elegimos estas en particular por varias razones: todas ellas son más descriptivas y transparentes que los resultados de una prueba estandarizada; todas incluyen algún tipo de colaboración y la posibilidad de cuestionar directamente los juicios de otros; generalmente incluyen habilidades útiles para una ciudadanía democrática (tales como deliberación con otros, cuestionar la evidencia y hablar en público o presentaciones); generalmente involucran a quienes están más cerca de la acción y por lo mismo quienes más saben –profesores y estudiantes– como actores principales en la toma de decisiones y aunque la mayoría de la gente podría argumentar que el tiempo utilizado en preparar una prueba no es particularmente educativo, nosotros creemos que preparar y llevar acabo las evaluaciones presentadas en este libro son buenas prácticas de enseñanza. Tanto educadores como estudiantes debiesen estar continuamente preparándose para y llevando a cabo estas evaluaciones, pues el tiempo que se utiliza haciendo esto logra los objetivos principales del aprendizaje, un tema que exploramos en el siguiente capítulo.
Una nota sobre autoría: Como puede ya haber notado el lector, los argumentos y ejemplos que ofrecemos en este libro están basados en la experiencia que los autores hemos tenido en muchos roles ligados a la educación: como profesores, como académicos, como formadores de profesores, como defensores dentro de debates sobre política educacional y como miembros de grupos de educadores enfocados en mejorar las evaluaciones por más de cuatro décadas, tales como el Grupo de Estudio sobre Evaluaciones North Dakota. Ambos autores hemos tenido experiencias particulares y únicas, y aunque el libro ha sido escrito y discutido en conjunto, habrá ejemplos o capítulos completos que vendrán de la experiencia particular de uno de los autores. El capítulo diez es una contribución de los directores del New York Performance Standards Consortium, un grupo de 38 escuelas secundarias que ha implementado evaluaciones alternativas a los exámenes Regents en Nueva York. Estas evaluaciones de rendimiento son similares a los portafolios que describimos en el capítulo siete. Los autores toman de su experiencia con el Consortium y de entrevistas con estudiantes y profesores las bases para describir un caso de estudio de escuelas que están llevando a cabo una gran alternativa a las pruebas estandarizadas.
1 Nota de la traducción: El sistema escolar estadounidense comprende la formación primaria, desde primero a octavo grado (desde los seis a los catorce años), y la secundaria, desde noveno a duodécimo grado (desde los catorce a los dieciocho años).
2 Nota de la traducción: SAT es la prueba estandarizada utilizada para admisión universitaria en Estados Unidos.