New York Times, CNN y ABC de Australia bloquean el acceso al contenido del rastreador web GPTBot de OpenAI

El Chicago Tribune y los periódicos australianos Canberra Times y Newcastle Herald también parecen haber rechazado el rastreador web del fabricante de Chat GPT.

Medios de comunicación como el New York Times, CNN, Reuters y la Australian Broadcasting Corporation (ABC) han bloqueado una herramienta de OpenAI, limitando la capacidad de la empresa para seguir accediendo a su contenido.

OpenAI está detrás de uno de los chatbots de inteligencia artificial más conocidos, ChatGPT. Su rastreador web, conocido como GPTBot, puede escanear páginas web para ayudar a mejorar sus modelos de inteligencia artificial.

The Verge fue el primero en informar que el New York Times había bloqueado GPTBot en su sitio web. Posteriormente, The Guardian descubrió que otros sitios web de noticias importantes, incluidos CNN, Reuters, el Chicago Tribune, ABC y las marcas Australian Community Media (ACM), como Canberra Times y Newcastle Herald, también parecen haber rechazado el rastreador web.

Los llamados modelos de lenguaje grande, como ChatGPT, requieren grandes cantidades de información para entrenar sus sistemas y permitirles responder consultas de los usuarios de manera que se asemejen a los patrones del lenguaje humano. Pero las empresas detrás de ellos a menudo guardan silencio sobre la presencia de material protegido por derechos de autor en sus conjuntos de datos.

El bloqueo de GPTBot se puede ver en los archivos robots.txt de los editores que indican a los rastreadores de los motores de búsqueda y otras entidades qué páginas pueden visitar.

"Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad", dijo OpenAI en una publicación de blog que incluía instrucciones sobre cómo rechazar el rastreador.

Todos los medios examinados añadieron el bloque en agosto. Algunos también han prohibido CCBot, el rastreador web de un depósito abierto de datos web conocido como Common Crawl que también se ha utilizado para proyectos de inteligencia artificial.

CNN confirmó a Guardian Australia que recientemente bloqueó GPTBot en todos sus títulos, pero no comentó si la marca planea tomar más medidas sobre el uso de su contenido en sistemas de inteligencia artificial.

Un portavoz de Reuters dijo que revisa periódicamente su robots.txt y los términos y condiciones del sitio. "Dado que la propiedad intelectual es el alma de nuestro negocio, es imperativo que protejamos los derechos de autor de nuestro contenido", dijo.

Los términos de servicio del New York Times se actualizaron recientemente para hacer aún más clara la prohibición de "el raspado de nuestro contenido para el entrenamiento y desarrollo de la IA... aún más clara", según un portavoz.

A partir del 3 de agosto, las reglas de su sitio web prohíben explícitamente que el contenido del editor se utilice para “el desarrollo de cualquier programa de software, incluido, entre otros, el entrenamiento de un sistema de aprendizaje automático o inteligencia artificial (IA)” sin consentimiento.

Los medios de comunicación de todo el mundo se enfrentan a decisiones sobre si utilizar la IA como parte de la recopilación de noticias y también sobre cómo lidiar con la posibilidad de que su contenido sea absorbido por grupos de capacitación por parte de empresas que desarrollan sistemas de IA.

A principios de agosto, medios como Agence France-Presse y Getty Images firmaron una carta abierta pidiendo una regulación de la IA, incluida la transparencia sobre “la composición de todos los conjuntos de entrenamiento utilizados para crear modelos de IA” y el consentimiento para el uso de material protegido por derechos de autor.

Google ha propuesto que los sistemas de inteligencia artificial deberían poder eliminar el trabajo de los editores a menos que opten explícitamente por no participar.

En una presentación para la revisión del marco regulatorio en torno a la IA por parte del gobierno australiano, la compañía abogó por “sistemas de derechos de autor que permitan un uso apropiado y justo del contenido protegido por derechos de autor para permitir el entrenamiento de modelos de IA en Australia en una amplia y diversa gama de datos, al tiempo que apoyar opciones de exclusión viables”.

La investigación de OriginalityAI, una empresa que comprueba la presencia de contenido de IA, compartida esta semana, encontró que los principales sitios web, incluidos Amazon y Shutterstock, también habían bloqueado GPTBot.

El archivo robot.txt de The Guardian no rechaza GPTBot.

ABC, Australian Community Media, Chicago Tribune, OpenAI y Common Crawl no respondieron antes de la fecha límite.