El asistente de Google comenzará a sonar mucho más natural gracias a WaveNet, un nuevo sistema de texto a voz (o síntesis del habla) creado por la sucursal de DeepMind de Google.

WaveNet difiere de la tradicional Concatenative TTS , que utiliza una gran base de voz pregrabada por un solo actor de voz, y Parametric TTS , que utiliza una voz generada por ordenador, en el que puede crear formas de onda individuales con 16.000 muestras por segundo.

WaveNet utiliza un gran conjunto de datos de muestras de voz y ha sido capacitado durante más de 12 meses para reconocer qué tonos se suceden y qué formas de onda son realistas.

Hay un montón de trabajo técnico detrás de las escenas que puedes leer en el enlace que tienes a continuación. Pero ¿qué tal un ejemplo práctico del efecto de WaveNet en Google Assistant?

Antes de WaveNet

 

Después de WaveNet

 

WaveNet se utilizará con el inglés de los Estados Unidos y el japonés por el momento, pero Google probablemente estará añadiendo otros idiomas para que sean más naturales.

El equipo de DeepMind tardó 12 meses para crear WaveNet y optimizarlo para trabajar lo suficientemente rápido para un uso amplio, imagínate lo que puede hacer con otros 12 meses.

Fuente | Vía

Compartir
Jerónimo Salgado Ramos
Filósofo, Friki, Sapiosexual, Nómada. Metido entre ordenadores desde los 13 años, apasionado de la tecnología y de meterle mano a todas las novedades que salgan