Si de los resultados de las evaluaciones estandarizadas quitamos los efectos producidos por factores que se encuentran fuera del aula, como los derivados del nivel socioeconómico de las familias de los alumnos, nos encontraríamos supuestamente con una especie de "efecto docente" ¿Es correcto evaluarlo con índices de esta naturaleza? ¿Constituiría un aporte positivo?
Los indicadores de rendimiento escolar constituyen una atractiva medida para evaluar el desempeño docente, puesto que el objetivo final de la enseñanza es el mejoramiento del aprendizaje de los estudiantes. No es de sorprender que gran parte de las investigaciones se hayan centrado en el uso del rendimiento académico de los estudiantes medido a través de las pruebas estandarizadas para evaluar a los docentes.
Los indicadores de rendimiento escolar constituyen una atractiva medida para evaluar el desempeño docente, puesto que el objetivo final de la enseñanza es el mejoramiento del aprendizaje de los estudiantes. No es de sorprender que gran parte de las investigaciones se hayan centrado en el uso del rendimiento académico de los estudiantes medido a través de las pruebas estandarizadas para evaluar a los docentes.
Por ejemplo, examinó recientemente los resultados de las pruebas de alfabetización y conocimientos básicos de matemáticas de tres cohortes de estudiantes y concluyó que las variaciones en las posiciones relativas de las clases de estudiantes proporcionaban una base para la identificación de los maestros eficientes e ineficientes. Braun sostiene que la consideración de los resultados de los estudiantes es un enfoque prometedor por dos razones: en primer lugar, traslada el debate acerca de la calidad de los docentes hacia el aprendizaje de los estudiantes como el principal objetivo de la enseñanza y, en segundo lugar, incorpora una medida cuantitativa –y, por ende, objetiva y equitativa– del desempeño de los docentes. A este respecto, el desarrollo de modelos de “valor agregado” representa un significativo avance en relación con los métodos basados en la proporción absoluta de estudiantes que logran un nivel de rendimiento determinado. Los modelos basa dos en el “valor agregado” tienen por objetivo controlar los puntajes anteriores obtenidos en las pruebas por cada uno de los estudiantes y, por lo tanto, tienen la potencialidad de identificar el aporte de un maestro particular al rendimiento académico de los estudiantes.
En Florida, el esquema denominado “Los Maestros Especiales reciben una Retribución” (Special Teachers are Rewarded STAR) vincula la remuneración o las bonificaciones para maestros particulares a medidas de valor agregado del aprendizaje de los estudiantes. Sin embargo, este tipo de vínculo entre una medida de desempeño directa y la remuneración sigue siendo extremadamente escaso, dados los numerosos desafíos estadísticos y teóricos asociados al uso de es tos métodos. En efecto, Braun recalca el marcado contraste entre el entusiasmo de quienes quisieran utilizar tales mediciones, principal mente las autoridades a cargo de las políticas, y las reservas expresadas por los investigadores que han estudiado sus características técnicas.
El uso del rendimiento académico de los estudiantes en las pruebas estandarizadas para evaluar el desempeño de los docentes plantea numerosos desafíos estadísticos. La mayoría de los autores no están convencidos de que la generación actual de modelos de valor agregado sea lo suficientemente válida y confiable como para ser utilizada para evaluar en forma equitativa la eficiencia de maestros particulares. Las limitaciones estadísticas están relacionadas, en primer lugar, con la notoria ausencia de datos confiables, principalmente debido al hecho de que los estudiantes no suelen rendir pruebas estandarizadas con una frecuencia anual. Rowley e Ingvarson critican la metodología de Leigh, que consiste en crear un puntaje de prueba hipotético en el año con datos faltantes en el punto medio de dos resultados disponibles, argumentando que no permite atribuir en forma equitativa el éxito de los estudiantes a los diferentes maestros involucrados. En segundo lugar, cuan do se dispone de datos, las variaciones del muestreo pueden provocar imprecisiones en las medidas de los puntajes de las pruebas. Este problema es particularmente notorio en las es cuelas básicas, donde el limitado número de estudiantes por clase genera grandes idiosincrasias de la muestra particular de estudiantes que está siendo evaluada.
Las principales críticas metodológicas señalan que los modelos basados en el valor agregado, cualquiera sea su grado de sofisticación, no pueden ni integrar cabalmente todos los facto res que influyen en los resultados obtenidos por los estudiantes en las pruebas –de naturaleza cualitativa– ni reflejar todos los resultados de aprendizaje de los estudiantes. Los antecedentes y el apoyo de las familias, la asistencia a la escuela, el clima entre pares y en el aula, las políticas de las escuelas, la disponibilidad de materiales apropiados y los efectos de los niños influyen en el aprendizaje de los estudiantes. Factores específicos que intervienen en el momento de la prueba –“un perro que ladra en el patio, una temporada con una alta incidencia de resfríos, un estudiante con mal comportamiento en una clase”– también pueden afectar los resulta dos de un estudiante independientemente del aporte de su maestro (Kane y Staiger). Además, es probable que los buenos maestros tengan un impacto en el rendimiento de los niños durante varios años después de haberles enseñado y, a la inversa, después de varios años de estar sometidos a maestros ineficien tes, puede que los estudiantes nunca sean capaces de ponerse al día académicamente.
Estos ‘efectos acumulativos’ de los docentes no pueden medirse con precisión en puntos discretos en el tiempo. Finalmente, el impacto de la enseñanza en los estudiantes no está restringido a las áreas evaluadas a través de las pruebas estandarizadas, generalmente limitadas a lectura y matemáticas, sino que también incluyen la transferencia de habilidades psicológicas, cívicas y de aprendizaje para toda la vida. Xin, Xu y Tatsuoka intentaron descomponer los puntajes de pruebas estandarizadas en diversas categorías de habilidades cognitivas en cuatro países (Japón, Corea, Holanda y Estados Unidos) y encontraron que los atributos de los maestros considerados en las decisiones con respecto a las remuneraciones no tienen un impacto positivo consistente sobre ningún tipo de habilidad cognitiva, a pesar de haber controlado los antecedentes tanto individuales como familiares. Estas son fuentes de escepticismo con respecto al uso de estos métodos estadísticos.
Estos ‘efectos acumulativos’ de los docentes no pueden medirse con precisión en puntos discretos en el tiempo. Finalmente, el impacto de la enseñanza en los estudiantes no está restringido a las áreas evaluadas a través de las pruebas estandarizadas, generalmente limitadas a lectura y matemáticas, sino que también incluyen la transferencia de habilidades psicológicas, cívicas y de aprendizaje para toda la vida. Xin, Xu y Tatsuoka intentaron descomponer los puntajes de pruebas estandarizadas en diversas categorías de habilidades cognitivas en cuatro países (Japón, Corea, Holanda y Estados Unidos) y encontraron que los atributos de los maestros considerados en las decisiones con respecto a las remuneraciones no tienen un impacto positivo consistente sobre ningún tipo de habilidad cognitiva, a pesar de haber controlado los antecedentes tanto individuales como familiares. Estas son fuentes de escepticismo con respecto al uso de estos métodos estadísticos.
También es necesario considerar las limitaciones teóricas. En primer lugar, una correlación estadística no es una relación causal: el hecho de que los docentes sean importantes para el aprendizaje de los estudiantes no indica necesariamente que el aprendizaje de los estudian tes sea el resultado de una buena enseñanza. En segundo lugar, las pruebas estandarizadas utilizadas para evaluar a los estudiantes no están específicamente diseñadas para efectos de evaluar a los docentes. Goe sostiene que no están diseñadas para ser particularmente sensibles a pequeñas variaciones en la pedagogía o para de terminar los aportes de los docentes al aprendizaje de los estudiantes. En consecuencia, no ofrecen una base sólida que permita responsabilizar a los docentes por los resultados de su desempeño. En tercer lugar, el uso de los puntajes obtenidos por los estudiantes en las pruebas para evaluar a los docentes podría inducir distorsiones y constricciones no esperadas en el comportamiento de los docentes, centrándose solo en el rendimiento de los estudiantes en las pruebas estandarizadas. Los esquemas de incentivos de altas consecuencias (high stakes) basados en las pruebas estandarizadas pueden incitar a los docentes a concentrarse exclusivamente en las áreas pedagógicas evaluadas en las pruebas, reduciendo así el currículo a las habilidades básicas generalmente evaluadas, incitar a los maestros a concentrarse en los estudiantes específicos que están cerca de la nota de aprobación a expensas de los niños que están más atrasados o adelantados e incluso provocar graves casos de engaño por parte de los docentes en las pruebas estandarizadas. Por otra parte, puede que los resultados de las pruebas permitan identificar a los maestros que son ineficientes o requieren perfeccionamiento, pero no permiten ni discriminar en forma justa entre la amplia gama de maestros eficientes ni identificar cuáles son las actividades de perfeccionamiento que deberían implementarse con el fin de mejorar el desempeño de los maestros ineficientes.
Finalmente, estos sistemas podrían traducirse en que los maestros fuesen responsabilizados por todo el desempeño de los estudiantes mientras que, por el contrario, se debería reconocer que la enseñanza exitosa es una responsabilidad compartida entre los gobiernos, las escuelas y la profesión docente.
Finalmente, estos sistemas podrían traducirse en que los maestros fuesen responsabilizados por todo el desempeño de los estudiantes mientras que, por el contrario, se debería reconocer que la enseñanza exitosa es una responsabilidad compartida entre los gobiernos, las escuelas y la profesión docente.
Como consecuencia, a pesar del atractivo de la idea, existen numerosas advertencias contra el uso de los puntajes obtenidos por los estudiantes en las pruebas para evaluar a los docentes. En particular, existe un amplio consenso en la literatura en torno a dos direcciones específicas: los resultados de los estudiantes no deberían utilizarse como la única medida del desempeño de los docentes y no deberían utilizarse ingenuamente para la toma de decisiones relativas a la carrera profesional de un docente, incluyendo el vínculo con la remuneración, debido a que esto incorpora un considerable riesgo de castigar o retribuir a los docentes por resultados que están fuera de su control. Estas objeciones de los docentes y los investigadores se han materializado, por ejemplo, en la decisión de la legislatura del Estado de Nueva York de prohibir el uso de los resultados obtenidos por los estudiantes en las pruebas para evaluar a los maestros en abril de 2008.
Extraído de
Evaluación docente: prácticas vigentes en los países de la OCDE y una revisión de la literatura
Marlène Isoré
Este informe fue preparado por Marlène Isoré, estudiante de postgrado del Institut d’Études Politiques de Paris (Sciences Po), Francia, durante una pasantía en la División de Políticas de Educación y Capacitación, Dirección de Educación, OCDE, durante el período junio septiembre de 2008. PREAL agradece a la OCDE la autorización para traducirlo y publicarlo en español.
No hay comentarios:
Publicar un comentario