Por qué los detectores GPT no son una solución al problema de las trampas de la IA

18 de mayo de 2023

Este artículo ha sido revisado de acuerdo con el proceso editorial y las políticas de Science X. Los editores han destacado los siguientes atributos al tiempo que garantizan la credibilidad del contenido:

comprobado

preimpresión

fuente confiable

corregir

por Andrew Myers, Universidad de Stanford

A raíz del lanzamiento de alto perfil de ChatGPT, no menos de siete desarrolladores o empresas han respondido con detectores de IA. Es decir, AI dicen que es capaz de saber cuándo el contenido fue escrito por otra AI. Estos nuevos algoritmos se presentan a educadores, periodistas y otros como herramientas para detectar trampas, plagios y desinformación.

Todo es muy meta, pero según un nuevo artículo de los académicos de Stanford, solo hay un problema (muy grande): los detectores no son particularmente confiables. Peor aún, son especialmente poco fiables cuando el autor real (un ser humano) no es un hablante nativo de inglés.

Los números son sombríos. Si bien los detectores fueron "casi perfectos" en la evaluación de ensayos escritos por estudiantes de octavo grado nacidos en EE. UU., clasificaron más de la mitad de los ensayos TOEFL (61,22 %) escritos por estudiantes no nativos de inglés como generados por IA (TOEFL es un acrónimo de la Prueba de Inglés como Lengua Extranjera).

Se pone peor. Según el estudio, los siete detectores de IA identificaron unánimemente 18 de los 91 ensayos TOEFL de los estudiantes (19 %) como generados por IA y 89 de los 91 ensayos TOEFL (97 %) fueron marcados por al menos uno de los detectores.

"Todo se reduce a cómo los detectores detectan la IA", dice James Zou, profesor de ciencia de datos biomédicos en la Universidad de Stanford, una filial del Instituto Stanford para la IA centrada en el ser humano, y autor principal del estudio. "Por lo general, obtienen puntajes en función de una métrica conocida como 'perplejidad', que se correlaciona con la sofisticación de la escritura, algo en lo que los hablantes no nativos van a seguir naturalmente a sus homólogos nacidos en los Estados Unidos".

Zou y sus coautores señalan que los hablantes no nativos suelen obtener puntuaciones más bajas en medidas comunes de perplejidad, como riqueza léxica, diversidad léxica, complejidad sintáctica y complejidad gramatical.

"Estas cifras plantean serias dudas sobre la objetividad de los detectores de IA y aumentan la posibilidad de que los estudiantes y trabajadores nacidos en el extranjero puedan ser acusados injustamente o, peor aún, sancionados por hacer trampa", dice Zou, destacando las preocupaciones éticas del equipo.

Zou también señala que tales detectores se subvierten fácilmente mediante lo que se conoce como "ingeniería rápida". Ese término técnico en el campo de la IA simplemente significa pedirle a la IA generativa que "reescriba" ensayos, por ejemplo, para incluir un lenguaje más sofisticado, dice Zou. Proporciona un ejemplo de lo fácil que es eludir los detectores. Un estudiante que desee usar ChatGPT para hacer trampa podría simplemente ingresar el texto generado por IA con el mensaje: "Elevar el texto provisto empleando lenguaje literario".

"Los detectores de corriente son claramente poco confiables y fáciles de engañar, lo que significa que debemos ser muy cautelosos al usarlos como una solución al problema de las trampas de la IA", dice Zou.

La pregunta entonces se convierte en qué hacer al respecto. Zou ofrece algunas sugerencias. En el futuro inmediato, dice que debemos evitar depender de los detectores en entornos educativos, especialmente donde hay un gran número de hablantes no nativos de inglés. En segundo lugar, los desarrolladores deben dejar de usar la perplejidad como su métrica principal para encontrar técnicas más sofisticadas o, tal vez, aplicar marcas de agua en las que la IA generativa incrusta pistas sutiles sobre su identidad en el contenido que crea. Finalmente, necesitan hacer que sus modelos sean menos vulnerables a la elusión.

"Los detectores son demasiado poco confiables en este momento, y hay mucho en juego para los estudiantes, como para confiar en estas tecnologías sin una evaluación rigurosa y refinamientos significativos", dice Zou.

Los hallazgos se publican en el servidor de preimpresión arXiv.

Más información: Weixin Liang et al, los detectores GPT están sesgados contra los escritores ingleses no nativos, arXiv (2023). DOI: 10.48550/arxiv.2304.02819

Más información: Información de la revista: Cita