¿Por qué publicaría Anthropic una investigación que en principio les pejudica?
Publicado el 10 de febrero de 2026
No me esperaba que hacer comentario de texto al blog de Anthropic fuera a convertirse en un formato recurrente pero aquí estamos otra vez. Recientemente han publicado
un paper
en el que estudian cómo el uso de modelos grandes de lenguaje para desarrollar software entorpece el aprendizaje mientras que no acelera significativamente el llevar a cabo la tarea. En este momento Anthropic, con su línea de modelos Claude, es el principal proveedor de modelos grandes de lenguaje para desarrollo de software, siendo este campo una de sus principales fuentes de usuarios. Por esto, resulta contraintuitivo que sean ellos quienes publiquen esta investigación que en principio contradice directamente su modelo de negocio. ¿Por qué lo hacen?
Los blogs corporativos son algo curioso. En el sector tecnológico es frecuente que las empresas tengan un blog en el que publican sobre su trabajo. El formato intenta ser similar al de un blog personal de programador pero las entradas se publican a nombre de la empresa y se considera que son representativas de ésta. Algo publicado en el blog de desarrollo del equipo de Android en Google no es la opinión individual del ingeniero que lo ha escrito sino que se considera que Google ha dicho eso. La principal función de un blog de este tipo es publicitaria. Si una empresa escribe sobre las cosas interesantes que hace puede volverse más atractiva para que gente interesada en el tema busque trabajar allí. Además, es una forma de publicidad muy eficaz ya que va dirigida al tipo de persona que leería blogs sobre informática, que es una persona con el suficiente interés y entusiasmo como para dedicar su tiempo libre a formarse.
Los blogs corporativos tienen un incentivo a publicar cosas que son verdad y son contribuciones valiosas para atraer a este perfil que mencionábamos antes, al que un mensaje más vacío y puramente publicitario es más probable que les resbale. Sin embargo, también tienen tendencia a ser, detrás de su fachada estética de blog, muy correctos y profesionales, y a no torpedear sus intereses comerciales. Esto se puede ver bastante bien en casos en los que una persona que escribe para un blog corporativo también escribe un blog personal. Si comparamos las entradas de Xe Iaso en
el blog corporativo de Tigris
de lo que escribe en
su blog personal
vemos que no hay color. Las entradas del blog corporativo siempre son correctas e informativas. Los temas que tratan además suelen ir casualmente de la mano del anuncio de algún lanzamiento o cambio para el que esa explicación resulta que es relevante, de forma que el lector se lleva a la vez una explicación técnica y un guiño hacia el producto comercial que la integra. Desde luego nadie se imaginaría a un blog corporativo publicando algo como
Tormentmaxxing 'simple requests'
, una entrada muy divertida en el blog de Iaso sobre un uso muy poco profesional de un modelo grande de lenguaje con el que ninguna empresa querría estar asociada.
Volviendo al blog de Anthropic, la pregunta clave que debemos hacernos es por qué. ¿Por qué ha publicado Anthropic este artículo? Siendo el blog de una empresa la explicación de que el descubrimiento es interesante o el texto es entretenido no nos bastan. Si alguien ha sido pagado para escribir eso en su horario laboral cabe preguntarse por qué se le ha pagado por ello. Bien pues, allá vamos.
Una explicación inicial podría ser que intentan proyectar que su compromiso con la verdad y la ciencia es mayor que su afán de lucro. Podríamos entender que Anthropic busca publicando este tipo de investigaciones atraer a investigadores con la promesa implícita de que podrán trabajar y publicar libremente incluso cuando el resultado de su trabajo va contra los intereses comerciales de la empresa, que la ciencia es la mayor prioridad de Anthropic. Así, el público de esta entrada sería investigadores punteros del sector a los que se busca convencer de que fichen por Anthropic. Podría ser.
Leyendo con más atención, la parte clave de las conclusiones es que no todos los usuarios de un LLM habían puntuado igual de mal en el test posterior. Los usuarios que delegan todo o la mayoría de su trabajo al LLM puntuan mal en el test posterior mientras que los que resuelven el problema por su cuenta y usan el programa para aprender sobre el tema y cuestionar su conocimiento y forma de trabajar puntuan igual de bien o mejor que los que resuelven el problema sin usar un LLM. Esta es una conclusión interesante porque distingue a los usuarios de los productos de Anthropic entre los que lo hacen "bien" y los que lo hacen "mal" mientras provee investigación que apoya que usarlo "bien" sí reporta beneficios. Es decir, que si usas un LLM y no te va bien es tu culpa. Git gud.
Esta publicación podría interpretarse como Anthropic preparándose para el inevitable momento en el que la implantación de modelos grandes de lenguaje en entornos profesionales no traiga los beneficios de productividad prometidos. Las actuales valoraciones en bolsa estratosféricas de las empresas de inteligencia artificial se basan en la idea de que en el futuro próximo esta tecnología servirá para despedir a millones de trabajadores. Es la única forma en la que ésta puede ser una industria de un billón (lo que los ingleses llaman
one trillion
) de dólares. Preguntarle a ChatGPT cosas que podrías leer en la Wikipedia pero te da pereza buscar está bien como curiosidad pero no vale un billón de dólares. La valoración en bolsa de estas empresas se basa en mantener la ilusión de esos futuros despidos masivos. Por eso, la mayor amenaza contra su valoración en bolsa es un indicio de que la implantación de esta tecnología en el ámbito profesional no funciona o no da las ganancias de productividad prometidas. Este tipo de investigación le da a Anthropic y el resto de empresas del sector la excusa para poder decir que no es que la tecnología no funcione o no sea buena idea, es que todo el mundo la está usando mal. Y tenemos la ciencia para respaldar la idea de que se puede usar bien, de que existe una forma de usarla que sí tiene ventajas, así que todo el que no esté haciendo esto lo está haciendo mal y no haber obtenido los resultados esperados es su culpa.
Este sería un ejemplo de lo que el psicólogo estadounidense Devon Price llama vergüenza sistémica. Se hace cargar a individuos concretos con la responsabilidad de lo que en realidad son fallos sistémicos. Esta es una técnica que las empresas llevan décadas usando para cargar a la población con la responsabilidad de sus errores, por ejemplo hablando de la huella de carbono de cada individuo en vez de de la contaminación de las empresas energéticas o convirtiendo la alimentación sana en un problema de decisiones individuales y disciplina en vez de en una cuestión de la responsabilidad de las empresas de alimentos para con cómo de sanos son los productos que venden. Este artículo me hace pensar que las empresas de inteligencia artificial intentan hacer la misma jugada, culpando a sus clientes por su incapacidad de conseguir las mejoras de productividad prometidas en lugar de cuestionar si su producto realmente funciona como se afirma que lo hace.
La pregunta que hacerse ante esto es si los modelos grandes de lenguaje podrían usarse a escala en la forma que Anthropic ha encontrado que sí es buena y si es así por qué no es lo que está sucediendo. ¿Por qué tantas personas gravitan de forma intuitiva a formas de uso que no son beneficiosas? ¿Si la forma de usar que a más gente la sale de manera natural es la mala, podemos esperar una implantación generalizada de esta tecnología que sí reporte los beneficios que promete? ¿O deberíamos considerar que si por defecto para un gran porcentaje de los usuarios un modelo grande de lenguaje produce pérdida de habilidades sin mucha ganancia de productividad,
eso es lo que hace esta tecnología
?
Logo of RSS.