Una inteligencia artificial crea retratos de personas a partir de sus voces

Investigadores del MIT CSAIL, la división de Instituto Tecnológico de Massachusetts especializada en inteligencia artificial, revelaron los avances del sistema Spech2Face. Se trata de un modelo de IA capaz de crear retratos de personas usando la voz como único dato de partida. ¿Es posible inferir el aspecto de un rostro sin más información que aquella? ¿Cómo lo han logrado?

Los detalles de Spech2Face, la inteligencia artificial que convierte voces en rostros

El sistema, cuyas primeras experiencias se remontan al año 2019, se destaca en el ámbito de la inteligencia artificial por su capacidad para convertir fragmentos de audio (el discurso de una persona) en un rostro. En las imágenes vemos los resultados, sorprendentemente atinados en muchos casos.

A la izquierda, una foto de la persona que grabó el audio; en el extremo derecho, el retrato creado por el modelo de IA. (Foto: MIT CSAIL)
A la izquierda, una foto de la persona que grabó el audio; en el extremo derecho, el retrato creado por el modelo de IA. (Foto: MIT CSAIL)

En cada caso, a la izquierda aparece la foto de la persona que habla en la grabación y hacia el lateral derecho encontramos la creación de Speech2Face. Como señalamos, en varios ejemplos encontramos semejanzas entre la persona real y el retrato generado por el algoritmo. Además, en esta página oficial del proyecto es posible dar play a los audios.

Tal como nota el sitio PetaPixel, cabe reiterar que el sistema solamente se apoyó en voces, en pistas de apenas 3 segundos de duración. Los resultados mejoraron con audios más largos, por ejemplo al llegar a los 6 segundos.

Según contamos en TN Tecno al repasar los primeros pasos de Speech2Face, el sistema se apoya en dos instancias. En la primera codifica el audio para reconocer patrones. Luego decodifica esa información y genera imágenes de rostros.

Críticas y preocupaciones en torno a Speech2Face

Los propios investigadores saben que este mecanismo, cuanto menos, puede ser descrito como prejuicioso. Por lo demás, surgen críticas relativa a la privacidad. ¿Acaso la tecnología avanza para saber cómo somos simplemente con escuchar nuestra voz?

Lo cierto es que la investigación incluye una serie de asteriscos de orden ético. “Aunque se trate de una investigación puramente académica, es importante discutir explícitamente una serie de consideraciones (…) debido a la posible sensibilidad de la información”, observaron. En esa sección aseguraron que si bien el sistema recrea rostros, no puede generar la verdadera y exacta identidad de una persona en función de su voz. “El modelo sólo produce apariencias promedio y no individuos específicos”, dicen.

Una inteligencia artificial crea retratos de personas a partir de sus voces

En ese sentido comentaron que la tecnología que desarrollan fue creada para “revelar correlaciones estadísticas entre las características faciales y las voces”, y concluyeron al señalar que “cualquier investigación adicional o uso práctico de esta tecnología debe probarse cuidadosamente para garantizar que los datos de capacitación sean representativos”.

“Nuestro modelo está capacitado para capturar características visuales (relacionadas con la edad, el género, etcétera) que son comunes a muchas personas, y sólo en los casos en que hay pruebas suficientes para conectar esas características visuales con atributos de voz”, agregan en el nuevo informe de sus avances. “Como tal, el modelo solamente producirá caras de aspecto promedio, con características visuales que se correlacionan con el discurso de entrada”.

Scroll Up