domingo, 7 de abril de 2013

¿Corregiran los ordenadores los ensayos de los alumnos?


En abril de 2012 Mark D. Shermis, de la Universidad de Akron, y su colega Ben Hamner presentaron un amplio estudio [1] sobre el "estado del arte" en la efectividad de los sistemas automáticos (computerizados) de evaluación de ensayos. En otras palabras, un estudio sobre cómo de fiables son los actuales programas de ordenador para poner una nota académica a un ensayo, en base a sus méritos estilísticos y de contenido. La cosa no es banal porque, al margen del indudable interés teórico de la cuestión, este tipo de aplicaciones de inteligencia artificial a la enseñanza supone que se pone en manos de un software (bueno o malo) la evaluación de parte al menos del trabajo de los alumnos y con ello se hace depender de este software una evaluación intelectual y académica con enormes repercusiones para su vida profesional. 


http://www.flickriver.com/groups/589862@N22/pool/interesting/

El estudio tuvo una enorme repercusión mediática [2] porque las implicaciones más directas podían hacerse evidentes para cualquiera. Shermis presenta estas tecnologías en primer lugar no como un procedimiento para mejorar la evaluación de los ensayos, sino como una herramienta para liberar parcialmente a los profesores de la… hmmmmmm…, la hercúlea labor de corregir docenas o a veces cientos de trabajos que pueden llegar a las 20 páginas por alumno (cualquiera que haya pasado por esa tarea a final de curso sabe que la labor es realmente abrumadora). Si esta tecnología pudiera usarse con confianza, los profesores tendrían más tiempo para hacer un tipo "más fino" de correcciones por no hablar del tiempo que podrían dedicar a la investigación o a ver la Champions League. El uso de este tipo de sistemas supondría un enorme ahorro para los centros, lo cual podría suponer adquirir más material, contratar a más profesores, mejorar la infraestructura del centro, etc. Esta es, claro, la visión del educador, porque en la visión del gerente que toma las decisiones económicas (especialmente cuando llegan los tiempos de crisis) este tipo de ahorros supone sustituir a los profesores por las máquinas, si realmente realizan un trabajo comparable. Es por tanto crucial elegir la forma y el momento en que este tipo de tecnologías se apliquen al aula. [3]

Bien, pues ese momento está a punto de llegar. John Markoff, del NYT escribe un interesante artículo titulado "Software para evaluar los ensayos da un respiro a los profesores"en que describe los proyectos de la empresa norteamericana EdX para hacer accesible gratuitamente un software que hace exactamente esto: evaluar ensayos de tamaño mediano o corto según los criterios de evaluación del profesor. Y no sólo esto, EdX promete que su software puede recomendar a los alumnos cómo mejorar su redacción (esperemos que su ortografía), hasta qué punto se han centrado en el tema, etc. 

El escenario futuro (del futuro próximo, no lejano) es que el alumno enviará por email el pdf con su ensayo y en unos segundos obtiene una corrección evaluada y con los comentarios del profesor, que será un programa informático.




EdX es una organización sin ánimo de lucro esponsorizada por varios de los mejores Centros de Investigación y Universidades norteamericanos (MIT, Harvard, Berkeley, Rice… lo que quieras) con el fin de desarrollar tecnologías que faciliten la enseñanza online, especialmente los justamente famosos cursos online (MOOC es la palabra clave) de los que hablaremos en otra entrada próximamente.

Markoff llama la atención hacia algunas voces críticas, como las de Les Perelman, profesor de escritura en el MIT, contra el uso de este tipo de programas en el estado actual de la inteligencia artificial en el campo de análisis del lenguaje natural. Es especialmente instructivo su artículo de crítica al trabajo de Shermis y Hammer (el articulo se titula así: "Crítica al trabajo de Shermis etc.) donde se aplica a considerar críticamente los fundamentos teóricos del trabajo de ambos autores. La crítica es demoledora:
The study’s methodology used one variable for comparing human readers and a different variable for comparing machine scores, this difference artificially privileging the machines in half the datasets. Moreover, conclusions were drawn without the performance of statistical tests and inferences were based solely on impressionistic and sometimes inaccurate comparisons. In addition, there was no standard testing of the model as a whole for significance, which given the large number of comparisons, allowed machine variables to surpass human readers merely through random chance. Finally, half of the datasets used were not essays but short one paragraph responses involving literary analysis or reading comprehension that were not evaluated on any construct involving writing. [p. 2]

En marzo de este año varios colegas de Perelman fundaron, manifiesto incluido, "Profesionales en contra de la evaluación mecánica de ensayos en ejercicios importantes", que se opone frontalmente al uso de este tipo de evaluación mecánica, y que ha sido respaldado por varios miles de profesores, incluido Noam Chomsky (quien en 1955 entró en el MIT para investigar el lenguaje natural desde un punto de vista relativamente cercano a, y luego explotado por, la ciencia computacional) [4].


 En el artículo de Markoff se insiste una vez más en el papel de ayuda al profesor que representan estas tecnologías: Cita a Anant Agarwal, presidente de EdX, anunciando que "el software de evaluación instantánea será una herramienta pedagógica muy útil que permitirá a los estudiantes realizar pruebas y escribir ensayos una y otra vez y mejorar la calidad de sus respuestas."




¿Cuánto tardará en aplicarse esta tecnología? Yo calculo que su uso en los cursos masivos online (MOOC) será cosa de unos meses, o a lo sumo un año y medio. Para la enseñanza media y universitaria en inglés dudo que tarde en aplicarse más de tres años, al menos de forma limitada. Sobre su uso de forma experimental no hay que preguntarse nada porque ya se está aplicando desde hace tiempo en diversos dentros de varios continentes. Pero las reacciones desde el el mundo académico no son precisamente entusiásticas [5].

Como es normal en estos casos hay que separar el avance tecnológico y la aplicación social de tal avance. Desde el primer punto de vista no cabe duda de que este tipo de experimentación y tecnologías nos ayudan a comprender mejor los principios de estilo y composición literaria, de análisis de la información, etc, aparte de desarrollar herramientas que pueden ser muy útiles en el estudio del lenguaje natural (aunque el estudio del lenguaje natural no es precisamente la primera preocupación de la mayoría de los expertos en software de análisus lingüístico). Pero desde el punto de vista de su impacto social y cultural, naturalmente la primera preocupación es quién y con qué criterios se implantará esta tecnología. Si hay algo en la que la mentalidad del "contador de garbanzos" puede hacer daño a la educación es cuando las consideraciones económicas estrictas llevan a los centros a la adopción prematura de unas tecnologías con un potencial tan enorme para influir en la enseñanza y la vida "postacadémica" de los alumnos.


[1] Shermis, Mark D. y Hamner, Ben. 2012: Contrasting State-of-the-Art Automated Scoring of Essays: Analysis NCME Papers.

[2] Ver por ejemplo Molly Bloom [¿será este su verdadero nombre?] "Computers Can Score Student Essays As Well As Humans, Study Finds" y sus detractores, v.g. Steve Kolowich, "A Win for the Robo-Readers. Es muy interesante la apreciación, en general encomiástica de Sherman Dorn en "Automated essay scoring on state writing tests: as efficiently “meh” as human graders".

[3]  Aula física o virtual, aunque para un porcentaje apreciable de los alumnos españoles el aula física es más bien virtual.

[4] No está claro si se trata de una oposición por cuestión de principios o si se trata de una oposición transitoria en tanto se mejora, sustancialmente, el estado del arte en IA. En su presentación alegan todo tipo de razones para rechazar la mera idea:
Computers cannot “read.” They cannot measure the essentials of effective written communication: accuracy, reasoning, adequacy of evidence, good sense, ethical stance, convincing argument, meaningful organization, clarity, and veracity, among others. Independent and industry studies show that by its nature computerized essay rating is:
  • trivial, rating essays only on surface features such as word size, topic vocabulary, and essay length 
  • reductive, handling extended prose written only at a grade-school level
    inaccurate, missing much error in student writing and finding much error where it does not exist
     
  • undiagnostic, correlating hardly at all with subsequent writing performance 
  • unfair, discriminating against minority groups and second-language writers 
  • secretive, with testing companies blocking independent research into their products

[5] Véanse este artículo del Independent o las reacciones negativas en R.D. Jaffee. 

jueves, 14 de marzo de 2013



Esta presentación intenta mostrar de una forma eficaz y (esperemos) atractiva cuándo y dónde fue apareciendo la filosofía en Grecia. El vídeo pone de relieve hasta qué punto el surgimiento de la ciencia y la filosofía es un fenómeno eminentemente jónico y el papel de Atenas es muy tardío.

Los orígenes jonios de la filosofía griega en Vimeo

The Ionian origins of Greek Philosophy

The Ionian origins of Greek Philosophy A visual presentation of the geographical origins of Greek Philosophy Spanish version c...