Según el equipo de investigadores de la compañía, la herramienta VALL-E 2 ahora es capaz de clonar de manera totalmente convincente las voces de las personas y ha alcanzado ‘la paridad humana’.
En 2023, Microsoft desarrolló VALL-E, una IA capaz de imitar cualquier voz humana con solo 3 segundos de grabación, capturando también el tono emocional del hablante.
No conforme con ese gran avance, la compañía decidió desarrollar VALL-E 2, un modelo mejorado que logra la «paridad humana». Para su funcionamiento, esta herramienta utiliza LibriSpeech y VCTK para mapear texto a audio, imitando pronunciación, entonación y cadencia. Tras escuchar un breve clip y recibir una entrada de texto, VALL-E 2 produce una voz artificial fiel a la original.
A pesar de sus impresionantes capacidades, Microsoft considera VALL-E 2 un proyecto de investigación, sin planes de lanzarlo al público debido a riesgos de suplantación de identidad. El equipo sugiere que podría ser útil en educación y entretenimiento, pero reconoce problemas éticos y laborales, como la imitación sin consentimiento y la sustitución de actores de voz.
Microsoft advierte sobre el uso indebido de VALL-E 2, mientras que otras IA de clonación de voz, aunque menos precisas, ya son usadas por ciberdelincuentes. En España, una mujer fue engañada con una llamada de voz clonada de su esposo. Es crucial que las personas estén informadas sobre estos avances para prevenir delitos y estafas.