¿Eres capaz de distinguir la inteligencia artificial de Google de una voz humana?

¿Eres capaz de distinguir la inteligencia artificial de Google de una voz humana?

2017 ha sido el año en el que la inteligencia artificial ha cobrado fuerza en el territorio de los smartphones. Firmas como Huawei con su Mate 10, Samsung con Bixby y, sobre todo, Google, han apostado por esta creciente tecnología en sus smartphones para dotarlos de una mayor inteligencia.

De vez en cuando, la inteligencia artificial es capaz de sorprendernos debido a los grandes avances logrados en períodos de tiempo cada vez más breves. Hoy, Google pretende demostrarnos hasta dónde ha llegado su propia inteligencia artificial de síntesis de voz bajo el nombre de Tacotron 2, y para ello nos propone distinguir las muestras de audio de este sistema, de las muestras narradas por un ser humano.

Tacotron 2 es indistinguible de una voz humana, según Google

google-brain-inteligencia-artificial

La segunda generación de esta tecnología de síntesis de voz basada en IA, consta de dos redes neuronales. La primera de ellas traduce el texto en un espectrograma que se aprovecha de los sistemas de WaveNet, un modelo generativo profundo de formas de onda de audio en bruto desarrollado por DeepMind, que se encarga de "leer" las ondas de la tabla y posteriormente generar el audio correspondiente.

Pero dejando a un lado los tecnicismos y los sistemas que utiliza esta IA para imitar la voz humana, Google nos propone un pequeño test formado por diferentes muestras de audio. En cada pareja de muestras, disponibles en el apartado "Tacotron 2 or Human" al final de, la página web del informe, una de ellas es artificial, generada por el sistema Tacotron 2, mientras que otra está narrada por el ser humano en el que se basa la voz del sistema. La pregunta es, ¿eres capaz de distinguir cuál es cuál?

He de reconocer que, en la mayoría de muestras, no he sabido reconocer cuál es la frase generada por la IA y cual la narrada por un ser humano. Sin embargo, como apuntan desde 9to5Google, al ver el código fuente de la página aparecen las "soluciones" en los nombres de los archivos de audio. Si aún no las has escuchado, mejor que lo hagas ahora, pues ahí va el spoiler con las respuestas: las muestras generadas por la IA de Google en las cuatro frases propuestas pertenecen a los ejemplos 2, 1, 1 y 2.

Sabiendo qué frases son las generadas por Tacotron 2, lo cierto es que los resultados son, cuanto menos, sorprendentes. La pronunciación basada en el contexto es prácticamente perfecta, y Tacotron 2 incluso es capaz de interpretar signos de puntuación a la vez que ajusta el tono de la oración para otorgarle una mayor naturalidad.

Para estar siempre al día con lo último en tecnología, suscríbete a nuestro canal oficial y verificado de Andro4all en WhatsApp.

Para ti
Queremos saber tu opinión. ¡Comenta!