Como es sabido, el rápido desarrollo de la IA (Inteligencia Artificial, en breve) generativa estos últimos 2 años – en particular los LLM (Large Language Models) tales como ChatGPT, Bard o Claude, entre otras – ha abierto una plétora de posibilidades para la enseñanza e investigación. Sin embargo, también ha traído consigo ciertos problemas que afectan la labor docente. En este caso, quisiera referirme a la de evaluación, en conexión con el denominado ‘plagio indetectable’, que afecta a esta labor.
El ‘plagio indetectable’ quizá constituye una de las más peculiares características de los textos producidos por IA generativas. Este tipo de plagio es prácticamente ‘indetectable’ pues no hay manera de distinguirlos de un texto original hecho por un ser humano. Así pues, más allá de la gramática perfecta o un estilo estandarizado de escritura, no hay manera de saber a ciencia cierta si el texto es generado por un humano o un algoritmo. Las IA generativas crean textos pero también imágenes originales con sólo redactar un ‘prompt’, es decir, una orden escrita en una sencilla oración como ‘haz un ensayo de 3,000 palabras sobre Aristóteles’, o ‘crea la imagen de un rostro que se parezca un poco a Jesús pero también a Buda’. Las hay también para componer música o resolver problemas matemáticos, pero lo que me interesa aquí son las que producen textos, o que están especialmente diseñadas para ello.
Una IA generativa de texto es capaz de resumir, analizar, desarrollar o comparar textos, y – por supuesto – producir ensayos, o breves artículos como éste (¿puedes tú, estimado lector, saber si estas líneas han sido hechas por un algoritmo o una persona?). Incluso, de crear poemas y relatos. De manera interesante, las IA generativas colocan bajo la lupa al célebre ‘Test de Turing’, aquella prueba según la cual (en una de sus varias formulaciones) “un juez interactúa con una máquina y un ser humano a través de una conversación escrita, sin saber quién es quién. Si el juez no puede distinguir entre la máquina y el ser humano, se considera que la máquina ha pasado el test y ha demostrado un comportamiento inteligente”. Se debe en parte a este test que a las LLM se les llame ‘inteligentes’ y esto haga creer a algunos que las IA tengan ‘conciencia’ (que no es lo mismo), como aquel ingeniero despedido de Google …
Pero vuelvo a lo que iba: el plagio indetectable y la evaluación que hacemos los docentes de textos que (supuestamente) redactan los estudiantes.
¿Tiene hoy sentido pedir ‘trabajos escritos’ a los estudiantes, dada la existencia de IA generativas? ¿Cómo podemos asegurar que el trabajo escrito (resumen, crítica, análisis, ensayo, etc.) es del estudiante y no de un Chatbot? Los plagios convencionales son fáciles de detectar a través de herramientas como Turnitin, Plagscan o Copyscape. Sin embargo, los textos ‘generativos’ son originales y el docente no tiene forma de asegurar, más allá de toda duda razonable, la verdadera autoría de los mismos. Siendo así, se desvirtúa la razón de ser de la evaluación de trabajos escritos, el de valorar la comprensión lectora y la habilidad escritural del estudiante.
Dicho lo anterior, por el momento, sólo se me ocurre que la única salida práctica a la pregunta (sin evadir la obligación docente de evaluar los textos de los estudiantes) podría ser la siguiente: solicitar que los textos fuesen redactados a mano y en situ, al mejor estilo de la ‘old school’. Medida ludista y antipopular, sin duda, pero que además conlleva el trabajo de ‘descifrar jeroglíficos’, a falta de buena caligrafía, rara avis en este mundo de teclados.
Otra salida (aunque ésta dispensa de revisar trabajos escritos) consiste en otro de los métodos clásicos de la vieja escuela, los exámenes orales. El examen ‘a capella’, sin textos o dispositivos a mano. En cierto modo, el retorno a la oralidad y la comprensión aural parecen salidas razonables para que las evaluaciones docentes sigan teniendo sentido en un mundo cada vez más mediatizado (y simulado) por las TIC.
El autor es docente

