La finalidad es llegar a una audiencia masiva de 4.000 idiomas, con un chatbot que es capaz de traducir de voz a texto.
El gigante tecnológico Meta anunció una nueva herramienta de texto a voz impulsada por IA. Según el anuncio, puede identificar más de 4.000 idiomas. La iniciativa tiene como objetivo preservar las lenguas. En particular, la empresa está utilizando textos religiosos y la Biblia para hacerlo.
“La recopilación de datos de audio para miles de idiomas fue nuestro primer desafío porque los conjuntos de datos de voz más grandes existentes cubren 100 idiomas como máximo. Para superar esto, recurrimos a textos religiosos, como la Biblia, que se han traducido a muchos idiomas diferentes. Cuyas traducciones se han estudiado ampliamente para la investigación de traducción de idiomas basada en texto.”, escribe Meta en una publicación de blog.
¿Cómo emplearon los textos religiosos para entrenar su IA?
Según la empresa, los datos originales se obtienen de la Biblia. Además, el equipo de Meta AI obtuvo grabaciones de audio y texto de FaithComesByHearing.com, GoTo.Bible y Bible.com.
Meta dice que ha grabado más de 6255 idiomas y dialectos en el proyecto, incluidas historias bíblicas, mensajes de evangelización, lecturas de las Escrituras y grabaciones de canciones. También afirma que sus modelos funcionan igual de bien para las voces de las mujeres, aunque las lecturas suelen presentar voces de hombres.
Cabe destacar que el dato de lecturas del Nuevo Testamento proporciona aproximadamente 32 horas de lecturas por idioma. En general, el conjunto de datos incluye más de 1100 idiomas.
La opinión de los fieles
Según los éticos cristianos que asesoraron a Meta AI en este proyecto, la mayoría de los creyentes no consideran que el Nuevo Testamento y sus traducciones sean demasiado sagrados para ser utilizados en el aprendizaje automático. Lo mismo se aplica a otros textos religiosos.
“Si bien el contenido de las grabaciones de audio es religioso, nuestro análisis muestra que esto no sesga el modelo para producir un lenguaje más religioso”, afirma la publicación del blog.
Por lo tanto, los datos de entrenamiento religioso no sesgarían los sistemas hacia un punto de vista particular. Los sistemas tampoco producirán texto de estilo religioso.