OpenAI usa videos de YouTube para entrenar GPT-4

La compañía detrás de ChatGPT transcribió más de un millón de horas de contenido, aprovechando los vacíos legales en la ley de derechos de autor de IA.

A principios de esta semana, The Wall Street Journal informó que las empresas de inteligencia artificial se estaban topando con un muro cuando se trata de recopilar datos de capacitación de alta calidad. Hoy, The New York Times detalló algunas de las formas en que las empresas han abordado esto. Como era de esperar, implica hacer cosas que caen en el área gris y confusa de la ley de derechos de autor de IA.

¿Videos de YouTube para entrenar GPT-4? Una práctica cuestionable

La historia comienza con OpenAI que, desesperado por obtener datos de entrenamiento, supuestamente desarrolló su modelo de transcripción de audio Whisper para superar el obstáculo, transcribiendo más de un millón de horas de videos de YouTube para entrenar GPT-4, su modelo de lenguaje grande más avanzado.

Esto es según The New York Times, que informa que la compañía sabía que esto era legalmente cuestionable pero creía que era un uso legítimo. El presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de los vídeos que se utilizaron, escribe el Times.

LEETAMBIÉN

BBVA homenajea a las futbolistas del Mundial México 71 con «La ovación que llegó 55 años tarde»

Bitel convirtió el Burger Fest 2026 en una experiencia 5G: tecnología, gaming y música conquistaron a la Gen Z

Ghostface invade el Matute como parte de la campaña de Scary Movie junto a Alianza Lima

Cargar más

La portavoz de OpenAI, Lindsay Held, dijo al medio anglosajon The Verge en un correo electrónico que la empresa selecciona conjuntos de datos «únicos» para cada uno de sus modelos con la intención de «ayudar a su comprensión del mundo» y mantener su competitividad en investigación global. Held añadió que la empresa utiliza «numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para datos no públicos», y que está estudiando la posibilidad de generar sus propios datos sintéticos.

El artículo del Times dice que la compañía agotó los suministros de datos útiles en 2021 y discutió la transcripción de videos, podcasts y audiolibros de YouTube después de analizar otros recursos. Para entonces, había entrenado sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.

El portavoz de Google, Matt Bryant, dijo al medio anglosajón The Verge en un correo electrónico que la compañía ha «visto informes no confirmados» de la actividad de OpenAI, y agregó que «tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube», haciéndose eco de los términos de la compañía usar.

OpenAI no es la única usando el contenido de YouTube

Google también recopiló transcripciones de YouTube, según las fuentes del Times. Bryant dijo que la compañía ha entrenado a sus modelos “en algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube”.

El Times escribe que el departamento legal de Google pidió al equipo de privacidad de la compañía que modificara el lenguaje de su política para ampliar lo que podía hacer con los datos de los consumidores, como sus herramientas de oficina como Google Docs. Según se informa, la nueva política se publicó intencionalmente el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia.

OpenAI usa videos de YouTube para entrenar GPT-4

BBVA homenajea a las futbolistas del Mundial México 71 con «La ovación que llegó 55 años tarde»

Bitel convirtió el Burger Fest 2026 en una experiencia 5G: tecnología, gaming y música conquistaron a la Gen Z

Ghostface invade el Matute como parte de la campaña de Scary Movie junto a Alianza Lima

Angel Vizcaino

Contenido Relacionado

BBVA homenajea a las futbolistas del Mundial México 71 con «La ovación que llegó 55 años tarde»

Bitel convirtió el Burger Fest 2026 en una experiencia 5G: tecnología, gaming y música conquistaron a la Gen Z

Ghostface invade el Matute como parte de la campaña de Scary Movie junto a Alianza Lima

Pizza Hut se declara fan de las hamburguesas en el Día de la Hamburguesa

Lo + nuevo

Lo + leído

Coca-Cola trae de vuelta sus peluches de osos polares con una línea de blind box por el Mundial

Oreo x BTS: así son las galletas edición especial inspiradas en el grupo de K-pop

Grupo AJE presenta a Hey Fit, la evolución de las gaseosas

Mattel lanza Barbie futbolista inspirada en México rumbo al Mundial 2026

Scrub Daddy lanza esponjas inspiradas en los personajes de Toy Story 5

Principales Categorías

Welcome Back!

Retrieve your password

Add New Playlist

OpenAI usa videos de YouTube para entrenar GPT-4

¿Videos de YouTube para entrenar GPT-4? Una práctica cuestionable

LEETAMBIÉN

OpenAI no es la única usando el contenido de YouTube

Contenido Relacionado

Lo + nuevo

Lo + leído

Principales Categorías

Welcome Back!

Retrieve your password

Add New Playlist

Accede al MediaKit