El modelo GPT de OpenAI ha avanzado enormemente, probablemente gracias a la ingesta de vastos volúmenes de contenido web, incluidos los archivos completos de grandes editoriales como Axel Springer, Condé Nast y The Associated Press, sin su permiso. Sin embargo, a pesar de esto, OpenAI ha anunciado acuerdos con muchos de estos conglomerados, lo que ha generado preguntas sobre las razones detrás de estas decisiones.
A primera vista, estos acuerdos pueden parecer confusos. ¿Por qué OpenAI pagaría por algo que ya ha utilizado? ¿Y por qué las editoriales, algunas de las cuales están furiosas al punto de considerar demandas legales por el uso no autorizado de su trabajo, aceptarían estos acuerdos?
Si observamos detenidamente, podríamos estar viendo el surgimiento de una nueva dinámica en el futuro de la web. Google ha estado disminuyendo el tráfico que dirige fuera de su propio ecosistema, lo que amenaza la existencia del resto de la web. Este vacío de poder en las búsquedas podría ser lo que OpenAI está tratando de llenar.
Los Acuerdos de OpenAI
Lo que sabemos hasta ahora es que los acuerdos permiten a OpenAI acceder a publicaciones para, por ejemplo, "enriquecer la experiencia de los usuarios con ChatGPT añadiendo contenido reciente y autorizado sobre una amplia variedad de temas", según el comunicado de prensa que anunció el acuerdo con Axel Springer. La parte de "contenido reciente" es crucial. El hecho de que ChatGPT dependa de datos antiguos implica que hay un límite temporal más allá del cual no puede recuperar información. Cuanto más cerca esté OpenAI de tener acceso en tiempo real, más cerca estarán sus productos de ofrecer resultados en tiempo real.
Los términos específicos de estos acuerdos han permanecido en gran medida opacos, probablemente debido a acuerdos de confidencialidad (NDA) firmados por todas las partes involucradas. Ciertamente, se desconocen los detalles del acuerdo con Vox Media, la empresa matriz de esta publicación. Mantener los detalles privados da a las editoriales una ventaja al negociar con otras empresas como Google o startups de IA como Anthropic, similar a cómo no revelar tu salario anterior te permite pedir más dinero a un nuevo empleador.
¿Qué Está Pagando OpenAI Realmente?
Según The Information, OpenAI ha estado ofreciendo entre 1 y 5 millones de dólares al año a las editoriales. Hay informes sobre acuerdos con publicaciones como Axel Springer, Financial Times, NewsCorp, Condé Nast y The Associated Press. Haciendo un cálculo aproximado, parece que el techo de estos acuerdos es de 10 millones de dólares por publicación al año.
Por un lado, estas cifras son mínimas, casi insignificantes en comparación con los salarios dentro de OpenAI, como los 1.9 millones de dólares que ganó el ex investigador principal Ilya Sutskever en 2016. Por otro lado, OpenAI ya ha extraído los datos de estas publicaciones. A menos que los tribunales lo prohíban, puede seguir haciéndolo. Entonces, ¿qué es exactamente lo que está pagando?
Tal vez sea acceso a las APIs, para facilitar la extracción de datos y mantener la información más actualizada. Actualmente, ChatGPT no puede responder consultas en tiempo real; el acceso a APIs podría cambiar eso.
Pero estos pagos también pueden verse como una forma de asegurar que las editoriales no demanden a OpenAI por el material que ya ha extraído. Una publicación importante ya ha presentado una demanda, y las consecuencias podrían ser mucho más costosas para OpenAI. Los litigios legales tomarán años en resolverse.
El Litigio del New York Times
Si OpenAI ha ingerido todo el contenido escrito en internet, eso significa dos cosas. Primero, que no hay manera de generar ese volumen de datos nuevamente en un futuro cercano, lo que podría limitar el avance de ChatGPT. (Cabe destacar que OpenAI aún no ha lanzado GPT-5). Segundo, que muchas personas están muy molestas.
Muchas de esas personas han presentado demandas, y la más importante es la del New York Times. La demanda del Times alega que cuando OpenAI utilizó su trabajo para entrenar sus modelos, incurrió en infracción de derechos de autor. Además, el producto creado por OpenAI ahora compite con el Times y está diseñado para "robarle audiencias".
La demanda del Times afirma que intentó negociar con OpenAI para permitir el uso de su contenido, pero esas negociaciones fracasaron. Mi conjetura, basada en los cálculos anteriores, es que OpenAI ofreció sumas insultantemente bajas al Times, y su excusa para esto es el uso justo (fair use), una disposición que permite el uso no licenciado de material protegido por derechos de autor bajo ciertas circunstancias.
Conclusión
Los acuerdos entre OpenAI y las grandes editoriales pueden parecer confusos al principio, pero parecen ser un movimiento estratégico para evitar litigios más costosos y potencialmente mantener una ventaja competitiva en el acceso a contenido en tiempo real. Sin embargo, el conflicto con publicaciones como el New York Times indica que la batalla legal por el uso de contenido en la era de la inteligencia artificial está lejos de haber terminado.