Saltar al contenido
Deberes escolares » Charlas educativas » Voces sintéticas, tan únicas como las huellas digitales – Charla TEDWomen 2013

Voces sintéticas, tan únicas como las huellas digitales – Charla TEDWomen 2013

Charla «Voces sintéticas, tan únicas como las huellas digitales» de TEDWomen 2013 en español.

Muchas de las personas con trastornos severos del habla utilizan un dispositivo informático para comunicarse. Sin embargo, pueden elegir entre sólo unas pocas opciones de voz. Es por eso que Stephen Hawking tiene un acento americano, y es por eso que muchas personas terminan con la misma voz, a menudo con efectos incongruentes. La científica Rupal Patel quería hacer algo al respecto, y en esta maravillosa charla comparte su trabajo de diseñar voces únicas para quienes no la tienen.

  • Autor/a de la charla: Rupal Patel
  • Fecha de grabación: 2013-12-05
  • Fecha de publicación: 2014-02-13
  • Duración de «Voces sintéticas, tan únicas como las huellas digitales»: 704 segundos

 

Traducción de «Voces sintéticas, tan únicas como las huellas digitales» en español.

Quisiera hablarles hoy acerca de un aspecto poderoso y fundamental sobre quienes somos: nuestra voz.

Cada uno de nosotros tenemos una impresión de voz única que refleja nuestra edad, tamaño, incluso nuestro estilo de vida y personalidad.

En palabras del poeta Longfellow, «La voz humana es el órgano del alma».

Como científica de la voz, me fascina cómo se produce la voz y tengo una idea de cómo puede ser diseñada.

Eso es lo que me gustaría compartir con ustedes.

Comenzaré reproduciéndoles un ejemplo de voz que tal vez reconozcan.

(Audio) Stephen Hawking: «Yo hubiera pensado que era bastante obvio lo que quise decir «.

Rupal Patel: Esa es la voz del Profesor Stephen Hawking.

Lo que pueden no saber es que la misma voz también puede ser utilizada por esta niña que es incapaz de hablar debido a una condición neurológica.

De hecho, todos estos individuos podrían utilizar la misma voz, y eso es porque sólo hay unas pocas opciones disponibles.

Sólo en los EE.UU., hay 2.5 millones de estadounidenses que no pueden hablar, y muchos de ellos utilizan dispositivos computarizados para comunicarse.

Ahora esos millones de personas alrededor del mundo están usando voces genéricas, incluyendo al Profesor Hawking, quien usa una voz con acento americano.

Esta falta de individualización de la voz sintética realmente me impactó cuando estaba en una conferencia de tecnología de asistencia hace algunos años, y recuerdo entrar en una sala de exposiciones y ver a una niña y un hombre adulto teniendo una conversación usando sus dispositivos, diferentes dispositivos, pero la misma voz.

Y miré alrededor y vi que esto sucedía a todo mi alrededor, literalmente cientos de individuos utilizando un puñado de voces, voces que no encajaban con sus cuerpos o sus personalidades.

No se nos ocurriría encajar una niña con la prótesis de un hombre adulto.

Entonces ¿por qué la misma voz protésica? Realmente me llamó la atención, y yo quería hacer algo sobre esto.

Les reproduciré un ejemplo de alguien que tiene, más bien dos personas, que tienen trastornos graves del habla.

Quiero que escuchen cómo suenan.

Están diciendo el mismo enunciado.

(Primera voz) (Segunda voz) Probablemente no entendieron que decían, pero espero que ustedes hayan oido sus identidades vocales únicas.

Así que lo que quisé hacer a continuación, fue averiguar cómo podíamos aprovechar estas habilidades vocales residuales y construir una tecnología que pudiera personalizarse, voces que pudieran ser personalizadas para ellos.

Así que me acerqué a mi colaborador, Tim Bunnell.

El Dr.

Bunnell es un experto en la síntesis de voz, y lo que él ha estado haciendo es la construcción de voces personalizadas para las personas juntando muestras pre-grabadas de su voz y reconstruyendo una voz para ellos.

Se trata de personas que habían perdido su voz más tarde en la vida.

No teníamos el lujo de muestras pregrabadas del habla para los nacidos con un trastorno del habla.

Pero pensé que tenía que haber una manera de hacer ingeniería inversa de una voz de lo poco que quedaba.

Así que decidimos hacer exactamente eso.

Nos pusimos en marcha con financiación de la Fundación Nacional de Ciencias, para crear voces diseñadas a medida que capturaran sus identidades vocales únicas.

Llamamos a este proyecto VocaliD o I.D.

vocal, por identidad vocal.

Ahora, antes de entrar en los detalles de cómo la voz se crea y les permite que la escuchen, necesito darles una muy rápida lección de ciencias del habla ¿de acuerdo? Así que en primer lugar, sabemos que la voz está cambiando drásticamente durante el curso del desarrollo.

Los niños suenan diferente a los adolescentes quienes suenan diferente de los adultos.

Todos hemos experimentado esto.

El hecho número dos es que el habla es una combinación de la fuente, que son las vibraciones generadas por la caja de la voz, que luego son empujadas a través del resto del tracto vocal.

Estas son las cámaras de su cabeza y cuello que vibran, y que filtran el sonido de la fuente para producir consonantes y vocales.

Entonces, de la combinación de la fuente y el filtro es cómo se produce el habla.

Y eso sucede en cada individuo.

Ahora, les dije antes que yo he pasado una buena parte de mi carrera tratando de entender y estudiando las características de la fuente de las personas con severos trastornos del habla, y lo que encontré es que a pesar de que sus filtros fueron perjudicados, eran capaces de modular su fuente: el tono, la intensidad, el ritmo de su voz.

Estos se llaman prosodia, y he estado documentando desde hace años que las habilidades prosódicas de estos individuos se conservan.

Así que cuando me di cuenta de que esas mismas señales son tan importantes para la identidad del interlocutor, tuve esta idea.

¿Por qué no tomamos la fuente de la persona de la que queremos que la voz suene igual, porque se ha conservado, y pedimos prestado el filtro a alguien de la misma edad y tamaño, porque ellos pueden articular el habla, y luego, las mezclamos? Porque cuando las mezclamos, podemos obtener una voz que es tan clara como nuestro hablante sustituto —la persona a la que pedimos prestado el filtro— y es similar en identidad a nuestro hablante objetivo.

Es así de simple.

Esa es la ciencia detrás de lo que estamos haciendo.

Así que una vez que tienes eso en mente, ¿cómo construyes esta voz? Bueno, tienes que encontrar alguien que esté dispuesto a ser un sustituto.

No es una cosa tan ominosa.

Ser un donante sustituto sólo requiere que digas de algunos cientos a unos pocos miles de expresiones.

El proceso es algo como esto.

(Video) Voz: Las cosas suceden de a pares.

Amo dormir.

El cielo es azul sin nubes.

RP: Ahora ella va a seguir así entre cerca de tres a cuatro horas, y la idea no es que ella dijera todo lo que el objetivo va a querer decir, pero la idea es cubrir todas las diferentes combinaciones de los sonidos que se producen en el lenguaje.

Cuanto más habla tienes, tendrás una voz que suena mejor.

Una vez que tienes esas grabaciones, lo que necesitamos hacer es analizar gramaticalmente estas grabaciones en pequeños fragmentos del habla, una —o dos— combinaciones de sonido, a veces incluso palabras enteras comienzan a llenar un conjunto de datos o una base de datos.

Llamaremos a esta base de datos un banco de voz.

El poder de este banco de voz es que a partir de este banco de voz, ahora podemos decir cualquier nuevo enunciado, del tipo, «Me encanta el chocolate», todos necesitamos poder decir eso, pescar a través de esa base de datos y encontrar todos los segmentos necesarios para decir ese enunciado.

(Video) Voz: Me encanta el chocolate.

RP: Eso es la síntesis de voz.

Se llama síntesis por concatenación, y eso es lo que estamos usando.

Esa no es la mejor parte.

Lo novedoso es cómo hacemos que suene como esta joven mujer.

Ella es Samantha.

La conocí cuando ella tenía 9 años, y desde entonces, mi equipo y yo hemos estado tratando de construir una voz personalizada para ella.

Primero tuvimos que encontrar un donante sustituto, y luego tuvimos que pedirle a Samantha que produjera algunos enunciados.

Lo sonidos que más puede producir son de vocales, pero eso nos es suficiente para extraer las características de su fuente.

Lo que sucede luego es mejor explicado con la analogía de mi hija que tiene 6 años.

Ella lo llama mezclar colores para pintar voces.

Es hermoso.

Es exactamente eso.

La voz de Samantha es un ejemplo concentrado de colorante alimentario rojo que podemos infundir en las grabaciones de su sustituto para conseguir una voz rosa al igual que esta.

(Video) Samantha: Aaaaaah.

RP: Así que ahora, Samantha puede decir esto.

(Video) Samantha: Esta voz es sólo para mí.

No puedo esperar para usar mi nueva voz con mis amigos.

RP: Gracias.

(Aplausos) Nunca olvidaré la amable sonrisa que se extendió por su cara cuando escuchó esa voz por primera vez.

Hay millones de personas alrededor del mundo como Samantha, millones, y nosotros sólo hemos empezado a rascar la superficie.

Lo que hemos hecho hasta ahora es que tenemos unos hablantes sustitutos a lo ancho de los EE.UU.

quienes han donado sus voces, y hemos estado usándolas para construir nuestras primeras voces personalizadas.

Pero hay mucho más trabajo por hacer.

Para Samantha, su sustituta vino de algún lugar del Medio Oeste, una extraña que le regaló su voz.

Como científica, estoy tan emocionada de llevar este trabajo fuera del laboratorio y finalmente al mundo real para que pueda tener un impacto real en el mundo.

Lo que a continuación quiero compartirles es cómo me imagino llevando este trabajo a ese siguiente nivel.

Imagino un mundo de donantes sustitutos de todos los ámbitos de la vida, de diferentes tamaños, diferentes edades, que se unen en este disco de voz para darle a las personas voces tan coloridas como sus personalidades.

Para hacer eso, como primer paso, hemos colocado este sitio, VocaliD.org, como una forma de reunir a aquellos quienes quieran unírsenos como donantes de voz, como donantes de experiencia, en lo que sea posible para hacer de esta visión una realidad.

Dicen que la donación de sangre puede salvar vidas.

Bueno, dar su voz puede cambiar vidas.

Todo lo que necesitamos es un par de horas de habla de nuestro hablante sustituto, y por lo menos una vocal de nuestro habladante objetivo, para crear una identidad de voz única.

Así que esa es la ciencia detrás de lo que estamos haciendo.

Quiero terminar regresando a la parte humana que es realmente la inspiración para este trabajo.

Hace unos cinco años, construímos nuestra primera voz para un pequeño niño llamado William.

Cuando su madre escuchó por primera vez su voz, ella dijo, «Así es como William habría sonado si hubiera sido capaz de hablar «.

Y entonces vi a William escribir un mensaje en su dispositivo.

Y pensé, ¿que estará pensando? Imagínense llevando con ustedes la voz de otro por nueve años y finalmente encontrar tu propia voz.

Imaginen eso.

Esto es lo que William dijo: «Nunca antes me había escuchado».

Gracias.

(Aplausos)

https://www.ted.com/talks/rupal_patel_synthetic_voices_as_unique_as_fingerprints/

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *