The Formative Evaluation of Classroom Learning in Bibliography in English and French. A Literature Review Resumen El uso de pruebas en gran escala para evaluar el aprendizaje se ha extendido en el plano internacional y muchos sistemas educativos nacionales. Las autoridades educativas y amplios sectores de la población esperan resultados positivos para la calidad educativa de esos ejercicios, pero el uso inadecuado de ellos trae consigo también efectos negativos que provocan el rechazo de muchos maestros. Una reacción ha sido el creciente interés por el potencial de la evaluación que hacen los maestros en el aula, en especial con el propósito de aportar elementos para que el aprendizaje mejore, la evaluación llamada formativa. En este artículo se presenta el desarrollo de las ideas sobre este tipo de evaluación durante las últimas décadas, en la literatura especializada en inglés y francés. Abstract The use of large-scale tests to evaluate learning has spread at the international level and in many national educational systems. Educational authorities and broad sectors of the population expect positive results in terms of the educational quality of tríese exercises, but their inadequate use also leads to negative effects that cause widespread rejection among teachers. One reaction has been increased interest in the potential of evaluations teachers carry out in the classroom, especially with the purpose of contributing elements for the improvement of learning; such evaluation is known as formative. This article presents the development of ideas on this sort of evalua-tion during recent decades, found in specialized literature in English and French. Keywords: formative evaluation, theories of evaluation, methods of evaluation, quality of education, literature review, Mexico. Introducción La evaluación siempre ha estado presente en la práctica de los maestros y, en el sentido amplio de la noción de evaluación formativa (ef), también lo ha estado en todos los casos en que el docente retroalimenta de alguna manera a sus alumnos cuando verifica sus avances. El sentido actual de la expresión, en cambio, es algo relativamente reciente que cobró fuerza a fines del siglo XX y es todavía un tema novedoso. Esta revisión sobre el tema presenta primero la evolución de la noción en la literatura en inglés, en la que apareció inicialmente en forma explícita, y luego su desarrollo en los medios francófonos. Para seleccionar los textos a incluir se definió el periodo de 1995 a 2011. Se partió de las principales obras de referencia del campo y las revistas especializadas más importantes sobre el tema, así como algunas bases de datos bibliográficos. Para la literatura en inglés se revisó la tercera edición de la obra de referencia más importante del campo, muy reciente, que incluye un extenso conjunto de artículos sobre evaluación (Peterson, Baker y McGaw, 2010); la cuarta edición del Handbook of research on teaching, en especial artículos de Porter, Young y Odden y de L. Shepard (Richardson, 2008: 259-297 y 1066-1101); los textos de Airasian y Abrams y de Gipps y Stobart en el International Handbook of Educational Evaluation (Kellaghan y Stufflebeam, 2003: 533-548 y 549-575); la cuarta edición de la principal obra de referencia sobre medición educativa, Educational Measurement, en particular el capítulo Classroom Assessment, de L. A. Shepard (Brenan, 2006: 623-646); así como dos obras de referencia recientes enfocadas en particular en el tema: Formative Classroom Assessment: Theory into Practice (McMillan, 2007) y Handbook of formative assessment (Andrade y Cizek, 2010). Las revistas revisadas a partir de 1995 fueron Assessment in Education: Principles, Policy, and Practice; Educational Assessment; Educational Evaluation and Policy Analysis; Educational Measurement: Issues and Practice; Educational Researcher; Practical Assessment Research and Evaluation; y Theory into Practice. Se utilizó también la serie de informes técnicos del Center for Research on Educational Standards and Student Testing (CRESST), de la Universidad de California en Los Ángeles. Por lo que se refiere a la literatura en francés, se partió de la revisión de la literatura en esa lengua de Allal y Mottier, publicada en la obra del Centre for Educational Research and Innovation (2005), y se revisó la colección completa de la revista Mesure et Evaluation en Éducation, que recoge la producción en lengua francesa de Canadá, Francia, Bélgica y Suiza desde 1983. La evaluación formativa en Estados Unidos y Reino Unido El Consejo de Autoridades Educativas Estatales (Council of Chief State School Officers) de Estados Unidos define la ef como: Un proceso utilizado por maestros y alumnos durante la instrucción, que ofrece retroalimentación para ajustar la forma en que se desarrollan la enseñanza y el aprendizaje, con el propósito de mejorar el logro de los objetivos de enseñanza que se quiere alcanzar. Susan Brookhart (2005, 2007, 2009) propone una definición que distingue cuatro etapas en el desarrollo de la noción que se sintetizan en el cuadro 1. Combinando elementos de cada una de las etapas identificadas por Brookhart, la evaluación formativa se puede definir como: Un proceso mediante el cual se recaba información sobre el proceso de enseñanza aprendizaje, que los maestros pueden usar para tomar decisiones instruccionales y los alumnos para mejorar su propio desempeño, y que es una fuente de motivación para los alumnos (Brookhar 2009:1). Cada etapa ha aportado algo sustantivo a la noción: • la idea original de Scriven que distingue evaluación al final o en el proceso; • la aplicación explícita de la noción a la evaluación del aprendizaje, y no sólo del currículo o programas, por Bloom; • la identificación de los alumnos como destinatarios clave de la información, con Sadler y su planteamiento de los tres elementos básicos del punto de partida, el de llegada y el recorrido entre uno y otro; y • el impacto de la revolución cognitiva y la atención a la dimensión afectiva, con Black y Wiliam, Shepard, Brookhart y Stiggins, entre otros. El planteamiento inicial de Scriven En 1967, y refiriéndose a la evaluación de programas educativos, Scriven propuso la idea original, que distingue la información que se usa para mejorar algo que está en proceso, oponiéndola a la que sirve para valorar el resultado final. La idea clave del trabajo de Scriven era sencilla: si se evalúa una primera versión de un programa educativo cuando todavía es posible introducir cambios con base en esa evaluación, estamos ante un caso de evaluación formativa. Cuando se evalúa la versión final de un programa educativo, para decidir si debe continuar o terminar, se está ante un ejemplo de evaluación sumativa (Popham, 2008:3). Pronto otros estudiosos advirtieron la importancia de esa distinción que hoy parece obvia, pero no se había manejado explícitamente antes del trabajo de Scriven. El primero en hacerlo, y el que tuvo la influencia más duradera, fue Benjamín Bloom. El paso de Bloom y el modelo del Mastery Learning Un año más tarde la idea fue retomada por Benjamín S. Bloom (1968). Poco después apareció la obra que difundió la noción, aplicándola a la evaluación del aprendizaje de los estudiantes, editada por Bloom, con Thomas Hastings y George Madaus (1971). En esta obra se precisan las diferencias de las evaluaciones que se usan para apoyar decisiones instruccionales, distinguiendo los propósitos formativos y los sumativos, así como los de ubicación y diagnóstico; se presentan técnicas para la evaluación de objetivos cognitivos y afectivos, se describe la complejidad de los nuevos sistemas de evaluación en gran escala y, en una extensa segunda parte, se presentan once capítulos con ideas sobre otros tantos campos especializados. El trabajo de Bloom y socios añade un elemento importante a la idea de Scriven: que, además de "ofrecer información sobre el proceso de aprendizaje y no sólo sobre resultados finales, lo que aporta la evaluación formativa puede servir a los maestros para que tomen mejores decisiones instruccionales" (Brookhart, 2009:1). Guskey señala que Bloom constató que muchas veces el contenido de un examen tiene poco que ver con lo visto en clase, que es también lo que el alumno repasa al prepararse para la prueba, lo que lo lleva a la conclusión de que no vale la pena esforzarse y que no conviene fiarse de los profesores. Esta experiencia se deriva de la creencia largamente aceptada, pero falsa, de que las evaluaciones deben guardarse en secreto y de que no es justo dejar que los alumnos sepan lo que se incluirá en ellas. Lamentablemente esto lleva al alumno a ver las evaluaciones como adivinanzas, y a creer que su éxito escolar depende en gran medida de qué tanto puede anticipar lo que sus maestros preguntarán en exámenes y pruebas... es difícil que estas sean las lecciones que un maestro responsable quiere que aprendan sus alumnos. En contraste con lo anterior, Bloom recomendaba que los maestros utilizaran sus evaluaciones como fuentes de información o retroalimentación para los alumnos. Para destacar el propósito "informativo" Bloom (1968) recomendaba llamar a estas evaluaciones "formativas", tomando el término de Scriven (1967) que, el año anterior, lo había utilizado para describir los aspectos informativos, más que enjuiciadores, de las evaluaciones de programas (Guskey, 2007:66). Para Bloom la evaluación debía servir a los maestros para mejorar la calidad de su enseñanza y debía ir seguida por [...] instrucción correctiva de alta calidad, que no es simplemente volver a enseñar, lo que típicamente quiere decir repetir las explicaciones originales en voz más alta y más despacio; más bien implica la utilización de enfoques que adapten la enseñanza a las diferencias de estilos de aprendizaje, modalidades y formas de inteligencia de los alumnos (Guskey, 2007:66-67). A partir de estas ideas, Bloom desarrolló el sistema de enseñanza conocido como Mastery Learning, que propone el uso sistemático de la evaluación formativa, al final de periodos cortos de instrucción, seguida por instrucción correctiva adaptada individualmente, con lo cual el autor esperaba una reducción sustancial de las brechas que separan a los alumnos más y menos avanzados. El uso de evaluaciones formativas frecuentes se complementa con otro elemento clave, la diferenciación de la enseñanza según las características y condiciones de cada alumno; en otras palabras, para que disminuya la variación de los resultados los maestros deben aumentar la variación de su enseñanza. Al principio esto implica un avance más lento pero, según los defensores del sistema, en el ciclo escolar no es necesario reducir los contenidos a cubrir, ya que: [... ] el tiempo que se utiliza para instrucción correctiva o enriquecimiento en las primeras unidades trae consigo importantes beneficios que facilitan las cosas más tarde. El tiempo adicional utilizado al principio se recupera en las unidades posteriores dedicando menos a revisiones y avanzando a un ritmo más rápido" (Guskey, 2010:112, 116). El sistema de Bloom se extendió ampliamente y dio resultados interesantes, como pusieron en evidencia revisiones de literatura que ejemplifican las citas siguientes: Pocas intervenciones educativas de cualquier tipo se asocian de manera consistente con efectos en el rendimiento tan grandes como los que produce el Mastery Learning... Evaluación tras evaluación los programas que utilizan este enfoque han producido avances impresionantes (Kulik, Kulik y Bangert-Drowns, 1990:292, en Guskey, 2007:75). El Mastery Learning es identificado regularmente como una de las estrategias de enseñanza más efectivas que los maestros pueden utilizar, en cualquier nivel educativo (Walberg, 1984, en Guskey 2007:75). La década de 1980: cómo llegar a la meta dado el punto de partida Sadler (1989) da un paso más en el desarrollo de la noción, al añadir que no sólo el maestro puede usar los resultados de la evaluación formativa, sino también los estudiantes y señala que, para que una evaluación sea formativa deberá incluir la identificación precisa de tres elementos: • El objetivo a alcanzar al final del proceso de enseñanza y aprendizaje de que se trate, o sea el punto de llegada, el aprendizaje esperado. • La situación en que se encuentra el alumno según la evaluación realizada, o sea el punto de partida de todo nuevo esfuerzo. • La forma de pasar del segundo al primero, las indicaciones precisas que orientarán al estudiante para que logre alcanzar el aprendizaje esperado. Wiliam señala que Sadler retomó la noción de retroalimentación de Ramaprasad, del campo de la electrónica, con la precisión de que el rasgo fundamental para considerar que una información constituye retroalimentación es, precisamente, que tenga algún efecto sobre el sistema en que se general. Sadler comenta: Un elemento clave de la definición de Ramaprasad es que la información sobre la brecha entre los niveles actuales y los de referencia se podrá considerar retroalimentación sólo si se usa para modificar dicha brecha. Si la información simplemente se registra, se transmite a un tercer actor que no tiene los conocimientos o la capacidad de modificar el resultado o si está codificada de manera demasiado profunda para que conduzca a una acción apropiada (por ejemplo como una calificación sintética dada por el maestro), entonces el ciclo de control no se puede cerrar, y en vez de retroalimentación efectiva se tienen solamente datos sueltos (dangling data) (Citado por Wiliam, 2010:19). La década de 1990: el impacto de la revolución cognitiva La evaluación formativa se desarrolló en el marco del modelo de Mastery Learning de Bloom, con base en los principios neo-conductistas del diseño instruccional (enseñanza-prueba-retroalimentación o corrección). Por ello importa explorar cómo se transforma "cuando se basa en otras concepciones de la enseñanza y el aprendizaje; cómo se desarrolla si se basa en principios constructivistas o socioconstructivistas o en las ideas sobre la participación en comunidades de práctica, como proponen los teóricos del aprendizaje situado" (Stiggins y Arter, 2002:4). Desde los inicios del desarrollo de las pruebas en gran escala algunos de sus promotores más lúcidos, como Tyler, señalaban que también ese tipo de evaluaciones debían verse como parte del proceso de enseñanza-aprendizaje, pero prevaleció un enfoque que, en realidad, las manejaba como un elemento adicional que sólo tenía lugar al final del mismo. Las pruebas en gran escala tradicionales se desarrollaron durante la primera mitad del siglo XX, marcadas por las concepciones psicológicas y pedagógicas de la época, entre las que destacaba el conductismo. Los avances de las concepciones psicométricas se dieron en forma paralela a la llamada revolución cognitiva. Estos desarrollos coinciden en rechazar el planteamiento conductista que reduce el campo de estudio de la psicología a los fenómenos directamente observables, para intentar abrir la caja negra de la mente, explorando los procesos que tienen lugar en su interior. La revolución cognitiva, dice Lorrie Shepard, fue: [...] una rebelión contra la psicología de las diferencias individuales y el conductismo, una de cuyas premisas básicas era el centrar la atención en la adquisición de competencias gracias al refuerzo de conductas observables y no en tratar de explicar los procesos mentales subyacentes (Shepard, 2006:627). En la medida en que se identifican y exploran los procesos mentales se abren horizontes atractivos para la pedagogía y para las metodologías de evaluación del aprendizaje, en especial las que pretendan servir para propósitos formativos, esto es para dar elementos que sirvan para que maestros y alumnos modifiquen sus acciones en consecuencia, para alcanzar mejores resultados. Shepard señala que "sólo recientemente los especialistas en medición comenzaron a prestar atención al contexto del aula para entender mejor las necesidades de los maestros en lo relativo a la preparación para llevar a cabo evaluaciones". Y añade que otros investigadores, Dorr y Bremme, han concluido que: [...] los maestros piensan con base en razonamientos prácticos y actúan como clínicos, orientando sus actividades evaluadoras a sus tareas cotidianas, como decidir qué enseñar, y cómo hacerlo con alumnos de diversos niveles de desempeño; monitorear el progreso de los alumnos, para saber cómo ajustar la enseñanza en consecuencia; y asignar calificaciones a sus alumnos con base en su desempeño (Cfr. Shepard, 2006:625-626). Shepard apunta elementos importantes en lo que se refiere al potencial formativo de las evaluaciones, señalando que: [...] la evaluación no puede promover el aprendizaje si se basa en tareas o preguntas que distraen la atención de los objetivos reales de la enseñanza. Históricamente, las pruebas tradicionales muchas veces orientaban la instrucción en una dirección equivocada, si centraban la atención en lo que es más fácil de medir, en vez de hacerlo en lo que es más importante de aprender (Shepard, 2006:626) El interés por la evaluación formativa se deriva en parte de la creciente conciencia de las limitaciones de las pruebas en gran escala y se relaciona con avances paralelos debidos a expertos en diversas áreas de contenidos curriculares, que: [...] comenzaron también a buscar alternativas a las pruebas estandarizadas para su uso en evaluaciones en el contexto del aula, movidos tanto por el rechazo de los efectos de las pruebas utilizadas para rendición de cuentas, como por los profundos cambios en las concepciones del aprendizaje y del manejo adecuado de los contenidos (Shepard, 2006:626). Muchos maestros no pueden hacer pruebas de mejor calidad a las desarrolladas en gran escala, que sean más adecuadas para retroalimentar su trabajo y el de sus alumnos. Por ello Silver y Kilpatrick sostenían que: [...] más allá de la práctica prevaleciente según la cual los maestros preparan sus propias pruebas para que se parezcan en forma y contenido a las de opción múltiple externas, debería hacerse un serio esfuerzo para prepararlas más bien para que puedan conducir lecciones de solución de problemas, y para evaluar la habilidad y las disposiciones de sus alumnos al respecto en el marco de esas lecciones (Cfr. Shepard, 2006:627). El calificativo de revolucionario que se aplica a las teorías cognitivas se justifica plenamente, dadas las enormes repercusiones que tiene tanto para la enseñanza como para la evaluación la idea básica de que es posible explorar los procesos que ocurren en la mente de quienes aprenden o enseñan. En relación con el aprendizaje de habilidades psicomotrices, o el de competencias como la lectura, que tiene un componente psicomotor, hacen sentido los ejercicios reiterados y estímulos de tipo conductista. La repetición y el ensayo error, en cambio, no son el mejor modo de desarrollar competencias cognitivas complejas en matemáticas, ciencias naturales y sociales, cuestiones tecnológicas, de planeación o gestión avanzada, entre otras. En esos casos son necesarias acciones más complejas para que los aprendices desarrollen (construyan) los nuevos conocimientos, a partir de los previos, en procesos que implican abandonar concepciones equivocadas (desaprendizaje o deconstrucción) que dificultan el aprendizaje (obstáculos epistemológicos). Para ello no sirve mucho que el maestro indique al estudiante que aún no consigue dominar cierto tema, que lo vuelva a intentar una y otra vez, sino que es necesario explorar los preconceptos erróneos, identificar las etapas del proceso de construcción del conocimiento nuevo (mapas de progreso), ofrecer ejemplos de productos que se acerquen más o menos al esperado, etcétera. Una enseñanza con esas características será diferente de la tradicional y mucho más rica; la distinción será similar en lo que se refiere al tipo de evaluación a realizar y al tipo de devolución o retroalimentación a ofrecer a los aprendices. Como dice un trabajo de la Organización para la Cooperación y el Desarrollo Económicos (OCDE) sobre el tema, "en última instancia, el propósito de la evaluación formativa es conducir a los estudiantes a desarrollar sus propias habilidades de 'aprender a aprender', que a veces se denominan también 'estrategias metacognitivas'" (CERI, 2005:50). Según McMillan, si se quiere usar la evaluación formativa para la "comprensión profunda" (deep understandingg), se necesita meta-cognición y autorreflexión.