La compañía detrás de ChatGPT transcribió más de un millón de horas de contenido, aprovechando los vacíos legales en la ley de derechos de autor de IA.
A principios de esta semana, The Wall Street Journal informó que las empresas de inteligencia artificial se estaban topando con un muro cuando se trata de recopilar datos de capacitación de alta calidad. Hoy, The New York Times detalló algunas de las formas en que las empresas han abordado esto. Como era de esperar, implica hacer cosas que caen en el área gris y confusa de la ley de derechos de autor de IA.
¿Videos de YouTube para entrenar GPT-4? Una práctica cuestionable
La historia comienza con OpenAI que, desesperado por obtener datos de entrenamiento, supuestamente desarrolló su modelo de transcripción de audio Whisper para superar el obstáculo, transcribiendo más de un millón de horas de videos de YouTube para entrenar GPT-4, su modelo de lenguaje grande más avanzado.
Esto es según The New York Times, que informa que la compañía sabía que esto era legalmente cuestionable pero creía que era un uso legítimo. El presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de los vídeos que se utilizaron, escribe el Times.
La portavoz de OpenAI, Lindsay Held, dijo al medio anglosajon The Verge en un correo electrónico que la empresa selecciona conjuntos de datos «únicos» para cada uno de sus modelos con la intención de «ayudar a su comprensión del mundo» y mantener su competitividad en investigación global. Held añadió que la empresa utiliza «numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para datos no públicos», y que está estudiando la posibilidad de generar sus propios datos sintéticos.
El artículo del Times dice que la compañía agotó los suministros de datos útiles en 2021 y discutió la transcripción de videos, podcasts y audiolibros de YouTube después de analizar otros recursos. Para entonces, había entrenado sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.
El portavoz de Google, Matt Bryant, dijo al medio anglosajón The Verge en un correo electrónico que la compañía ha «visto informes no confirmados» de la actividad de OpenAI, y agregó que «tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube», haciéndose eco de los términos de la compañía usar.
OpenAI no es la única usando el contenido de YouTube
Google también recopiló transcripciones de YouTube, según las fuentes del Times. Bryant dijo que la compañía ha entrenado a sus modelos “en algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube”.
El Times escribe que el departamento legal de Google pidió al equipo de privacidad de la compañía que modificara el lenguaje de su política para ampliar lo que podía hacer con los datos de los consumidores, como sus herramientas de oficina como Google Docs. Según se informa, la nueva política se publicó intencionalmente el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia.







