Turnitin dice que su detector de trampas AI no siempre es confiable

Este artículo es una vista previa del boletín The Tech Friend. Regístrese aquí para recibirlo en su bandeja de entrada todos los martes y viernes.

Resulta que no podemos detectar de manera confiable la escritura de programas de inteligencia artificial como ChatGPT. Ese es un gran problema, especialmente para los maestros.

Peor aún, los científicos dicen cada vez más que usar software para detectar con precisión la IA podría ser simplemente imposible.

La evidencia más reciente: Turnitin, una gran compañía de software educativo, dijo que el detector de trampas de IA que ha estado ejecutando en más de 38 millones de ensayos de estudiantes desde abril tiene más problemas de confiabilidad de lo que sugirió inicialmente. Turnitin, que asigna una puntuación porcentual "generada por IA" a cada trabajo de los estudiantes, está realizando algunos ajustes, incluida la adición de nuevas advertencias sobre los tipos de resultados límite más propensos a errores.

Escribí por primera vez sobre el detector de IA de Turnitin esta primavera cuando las preocupaciones sobre los estudiantes que usan la IA para hacer trampa hicieron que muchos educadores clamaran por formas de disuadirlo. En ese momento, la compañía dijo que su tecnología tenía una tasa de menos del 1 por ciento del tipo de error más problemático: falsos positivos, donde la escritura de estudiantes reales se marca incorrectamente como trampa. Ahora, Turnitin dice que a nivel de oración por oración, una medida más limitada, su software marca incorrectamente el 4 por ciento de la escritura.

Mi investigación también encontró que las detecciones falsas eran un riesgo significativo. Antes de su lanzamiento, probé el software de Turnitin con escritura real de estudiantes y con ensayos que los estudiantes voluntarios ayudaron a generar con ChatGPT. Turnitin identificó más de la mitad de nuestras 16 muestras al menos en parte de forma incorrecta, incluso dijo que el ensayo escrito completamente por humanos de un estudiante fue escrito en parte con IA.

Lo que está en juego en la detección de IA puede ser especialmente alto para los maestros, pero no son los únicos que buscan formas de hacerlo. También lo son las empresas de ciberseguridad, los funcionarios electorales e incluso los periodistas que necesitan identificar qué es humano y qué no. Es posible que usted también desee saber si ese llamativo correo electrónico de un jefe o político fue escrito por AI.

Ha habido una avalancha de programas de detección de IA en la web en los últimos meses, incluidos ZeroGPT y Writer. Incluso OpenAI, la compañía detrás de ChatGPT, hace uno. Pero hay un creciente cuerpo de ejemplos de estos detectores que se equivocan, incluido uno que afirma que el prólogo de la Constitución fue escrito por AI. (No es muy probable, a menos que ahora también sea posible viajar en el tiempo).

La conclusión para usted: tenga cuidado al tratar cualquier detector de IA como un hecho. En algunos casos, en este momento, es poco mejor que una suposición al azar.

Una tasa de error del 4 o incluso del 1 por ciento puede parecer pequeña, pero cada acusación falsa de hacer trampa puede tener consecuencias desastrosas para un estudiante. Desde que publiqué mi columna de abril, he recibido notas de estudiantes y padres angustiados por lo que dijeron que eran acusaciones falsas. (Mi correo electrónico todavía está abierto).

En una extensa publicación de blog la semana pasada, la directora de productos de Turnitin, Annie Chechitelli, dijo que la empresa quiere ser transparente con respecto a su tecnología, pero no se retractó de implementarla. Dijo que para los documentos que su software de detección cree que contienen más del 20 por ciento de escritura de IA, la tasa de falsos positivos para todo el documento es inferior al 1 por ciento. Pero no especificó cuál es la tasa de error el resto del tiempo: para los documentos que su software cree que contienen menos del 20 por ciento de escritura de IA. En tales casos, Turnitin ha comenzado a colocar un asterisco junto a los resultados "para llamar la atención sobre el hecho de que la calificación es menos confiable".

"No podemos mitigar completamente el riesgo de falsos positivos dada la naturaleza de la escritura y el análisis de la IA, por lo que es importante que los educadores utilicen la puntuación de la IA para iniciar un diálogo significativo e impactante con sus alumnos en tales casos", escribió Chechitelli.

La pregunta clave es: ¿Cuánto error es aceptable en un detector de IA?

Una nueva investigación preliminar del profesor de ciencias de la computación Soheil Feizi y sus colegas de la Universidad de Maryland encuentra que ningún detector de IA disponible públicamente es lo suficientemente confiable en escenarios prácticos.

"Tienen una tasa muy alta de falsos positivos y se pueden evadir con bastante facilidad", me dijo Feizi. Por ejemplo, dijo, cuando la escritura de IA se ejecuta a través de un software de paráfrasis, que funciona como una especie de diccionario de sinónimos automatizado, los sistemas de detección de IA son poco mejores que una conjetura aleatoria. (Encontré el mismo problema en mis pruebas de Turnitin).

También le preocupa que los detectores de IA tengan más probabilidades de señalar el trabajo de los estudiantes para quienes el inglés es un segundo idioma.

Feizi no probó el software de Turnitin, que está disponible solo para instituciones educativas que pagan. Una portavoz de Turnitin dijo que las capacidades de detección de Turnitin "son mínimamente similares a las que se probaron en ese estudio".

Feizi dijo que si Turnitin quiere ser transparente, debería publicar sus resultados de precisión completa y permitir que los investigadores independientes realicen sus propias investigaciones sobre su software. Un análisis justo, dijo, debe usar ensayos reales escritos por estudiantes sobre diferentes temas y estilos de escritura, y abordar el fracaso en cada subgrupo, así como en general.

No aceptaríamos un automóvil autónomo que choca el 4 por ciento, o incluso el 1 por ciento, del tiempo, dijo Feizi. Por lo tanto, propone una nueva línea de base para lo que debería considerarse un error aceptable en un detector de IA utilizado en estudiantes: una tasa de falsos positivos del 0,01 por ciento.

¿Cuándo sucederá eso? "En este punto, es imposible", dijo. "Y a medida que tengamos mejoras en los modelos de lenguaje grande, será aún más difícil acercarse a ese umbral". El problema, dijo, es que la distribución del texto generado por IA y el texto generado por humanos convergen entre sí.

"Creo que deberíamos acostumbrarnos al hecho de que no podremos saber de manera confiable si un documento está escrito por IA, o parcialmente escrito por IA, o editado por IA, o por humanos", dijo Feizi. "Deberíamos adaptar nuestro sistema educativo para no vigilar el uso de los modelos de IA, sino adoptarlo básicamente para ayudar a los estudiantes a usarlo y aprender de él".

Es uno de los flagelos de la vida en línea: ¿alguna vez ha sido engañado por lo que sospecha que es una revisión en línea falsa? Me refiero a los tipos de reseñas que encuentra en Amazon que recomiendan un producto que se desmorona después de comprarlo, o el tipo que encuentra en Yelp que elogia a un médico que resulta tener una manera de estar al lado de la cama totalmente repulsiva.

Si tiene una historia que contar sobre críticas dudosas, me encantaría conocer su experiencia. Envíe un correo electrónico a [email protected].

Help Desk es un destino creado para lectores que buscan comprender mejor y tomar el control de la tecnología utilizada en la vida cotidiana.

Tome el control: suscríbase al boletín The Tech Friend para recibir consejos y charlas directas sobre cómo hacer que su tecnología sea una fuerza para el bien.

Consejos técnicos para hacer tu vida más fácil: 10 consejos y trucos para personalizar iOS 16 | 5 consejos para que las baterías de tus gadgets duren más | Cómo recuperar el control de una cuenta de redes sociales pirateada | Cómo evitar enamorarse y difundir información errónea en línea

Datos y privacidad: una guía para cada configuración de privacidad que debe cambiar ahora. Hemos revisado la configuración de los servicios más populares (y problemáticos) para brindarle recomendaciones. Google | Amazonas | facebook | Venmo | manzana | Androide

Haga una pregunta: Envíe a la mesa de ayuda sus preguntas personales sobre tecnología.