Fotograma de Star Trek en el que vemos a Jean-Luc Picard tomando una taza de té earl grey.
Los modelos de lenguaje grandes y la experiencia de usuario
Publicado el 15 de enero de 2025
He leído recientemente argumentar que gran parte del entusiasmo por los modelos de lenguaje grandes (LLM por sus siglas en inglés) viene de la fantasía, proveniente de la ciencia ficción y sobre todo de Star Trek, de que sería guay controlar máquinas con lenguaje natural. Este análisis es extremadamente simplista.
El tuit arriba enlazado, aunque acertado en su crítica, ignora las ventajas de una interfaz basada en el lenguaje natural, reduciéndolo todo a que sería guay, vistoso, futurista. Mientras que se explican con mucho criterio las razones por las que es mala idea, se reducen las ventajas al mero capricho. Creo que esta crítica no entiende la verdadera aportación de los LLM a un producto porque no entiende las preferencias y necesidades de un amplio sector de los usuarios. Esto la hace, aunque factualmente correcta, totalmente inútil a la hora de convencer a nadie que no estuviera convencido ya.
La principal aportación de un LLM a una interfaz es de usabilidad. No es la posibilidad de usar lenguaje natural. Es la posibilidad de no ser concreto. Me explico. La comunicación humana está llena de "tú ya me entiendes". En una conversación, la parte que escucha lo hace de manera activa, rellenando los huecos y resolviendo las ambigüedades que deja el hablante. Al hablar, uno puede decir vaguedades e incluso errores gramáticales y la respuesta más común no suele ser "Error de sintaxis en la palabra 5. Repite la frase correctamente por favor" sino que el oyente hace el trabajo de reconstruir el mensaje a pesar de vaguedades y errores. La mayoría de la gente está acostumbrada a hablar de forma poco clara y a que sea el receptor el que haga una gran parte del trabajo de limpieza para sacar un mensaje comprensible de ese acto de comunicación. Es más, salvo las personas que tenemos que dedicar muchas horas al día a trabajar con ordenadores, mucha gente nunca o casi nunca tiene que enfrentarse al problema de dar instrucciones inambiguas, por lo que es una habilidad que tienen muy poco entrenada. De hecho, muchos lo odian. Ellos saben lo que quieren y serían mucho más felices si la máquina simplemente lo hiciera en vez de dar errores raros que nadie entiende. Cuando una máquina requiere que el usuario se adhiera a un formato estricto y complejo, esa es una interfaz muy hostil para mucha gente. Que la máquina sea capaz de tragarse un "tú ya me entiendes" y tirar para adelante es un salto enorme en accesibilidad.
A esto se añade que cada vez son más las tareas que se pueden llevar a cabo con un ordenador, lo que significa que los programas son cada vez más complejos, con más botones, comandos y opciones. Esto en parte se debe a la mierdificación (¿necesita WhatsApp tener historias de instagram y canales de noticias?) pero también se debe a que hoy en día son más las interacciones con el mundo que hacemos a través de un ordenador. La app de un banco, por ejemplo, tiene que permitir al usuario hacer todas las cosas que se pueden hacer con una cuenta bancaria, que no son pocas. Esto requiere de una interfaz compleja con muchos botones y opciones. Estas operaciones, además, antes se podían hacer yendo en persona a la oficina y pidiéndolas a un ser humano que entiende lo que le dices y sabe cómo se hacen las cosas. Ahora hay que hacer los pasos correctos en el orden correcto y sin equivocarse, lo cual es difícil y hostil para muchos usuarios. Sucede parecido con muchos trámites de la atención al público en la administración, por ejemplo.
En este entorno de interfaces complejas y hostiles herramientas como ChatGPT o Midjourney son un soplo de aire fresco. Tú le hablas y "te entiende". Se puede escribir cualquier cosa. No hay inputs incorrectos. No hay un formato al que es obligatorio adherirse. Hasta la ortografía es opcional. Simplemente funciona. Muchas de las funciones que cumple ChatGPT se pueden hacer con otras herramientas: hay traductores mejores, fuentes de información más fiables, herramientas de análisis de código que entienden el código que están analizando... Pero las interfaces basadas en LLMs son más fáciles de usar, sobre todo para la gente menos hábil con ordenadores.
Criticar los modelos de lenguaje grandes sin entender esto siempre va a errar el tiro, por muy acertada que sea la crítica, porque la experiencia nos ha demostrado una y otra vez que el público generalista tenderá a la herramienta que sea más fácil de usar aunque funcione peor o se invente mentiras. Por supuesto, este texto no invalida en absoluto las críticas legítimas a esta tecnología: las alucinaciones, el coste ecológico, el robo de datos con derechos de autor o las nefastas finanzas de las grandes empresas tecnológicas que desarrollan los modelos son todo problemas reales muy criticables. Pero si queremos convencer a alguien más que a los ya convencidos es necesario entender el porqué del éxito de estos productos y considerar la usabilidad y la accesibilidad como pilares centrales de esta discusión.
Logo of RSS.