Google logra innovación en procesamiento del habla

Muchos programas de procesamiento del habla por computadora usan un gran conjunto de datos de grabaciones cortas de un único hablante humano y luego combinan estos fragmentos del habla para formar nuevas palabras.

La división DeepMind de Google, que trabaja para desarrollar computadoras superinteligentes, ha creado un sistema de procesamiento del habla que, según dice, supera la tecnología existente en 50 por ciento.

TOMADA DE:elespectador.com

La empresa británica DeepMind, que Google compró por cerca de 400 millones de libras (US$533 millones) en 2014, desarrolló una inteligencia artificial llamada WaveNet que puede imitar la voz humana al aprender cómo formar las ondas sonoras individuales que crea la voz de una persona, anunció la empresa en una entrada de blog este viernes. En pruebas ciegas para el inglés de Estados Unidos y el chino mandarín, oyentes humanos encontraron que el habla generada por WaveNet sonaba más natural que la creada por cualquiera de los programas de texto a habla de Google, que se basan en tecnologías diferentes.

WaveNet, de todos modos, tuvo un desempeño inferior al del habla humana real.

Muchos programas de procesamiento del habla por computadora usan un gran conjunto de datos de grabaciones cortas de un único hablante humano y luego combinan estos fragmentos del habla para formar nuevas palabras. El resultado es inteligible y suena humano, aunque no completamente natural. La desventaja es que el sonido de la voz no se puede modificar fácilmente. Otros sistemas forman la voz por medios totalmente electrónicos, por lo común basados en reglas sobre cómo se pronuncian ciertas combinaciones de letras. Estos sistemas permiten manipular con facilidad el sonido de la voz, pero suelen sonar menos naturales que el habla generada por computadora sobre la base de grabaciones de hablantes humanos, dijo DeepMind.

Red neural

WaveNet es un tipo de inteligencia artificial llamada red neural y fue diseñada para imitar la forma en que funcionan partes del cerebro humano. Estas redes deben ser entrenadas con grandes conjuntos de datos.WaveNet no tendrá aplicaciones comerciales inmediatas porque el sistema requiere demasiado poder de computación: tiene que muestrear la señal de audio en la que está siendo entrenada 16.000 veces por segundo o más, dijo DeepMind. Para cada una de esas muestras tiene que hacer luego una predicción sobre el aspecto que tendrá la onda sonora basándose en cada uno de los ejemplos anteriores. Hasta los investigadores de DeepMind reconocieron en una entrada de su blog que “sin duda es una tarea desafiante”.

Por otra parte, aunque los investigadores han avanzado mucho en cuanto a lograr que las computadoras entiendan el lenguaje hablado, su capacidad de contestar de formas que parezcan completamente humanas está más rezagada.

WaveNet es otro acierto de DeepMind, que es más conocida por haber creado AlphaGo, un sistema de inteligencia artificial que este año derrotó al mejor jugador mundial del juego de estrategia Go.

Pero Google ha dicho poco sobre cómo la investigación de DeepMind la ha ayudado en el plano comercial, aunque la compañía reveló que ha usado la tecnología de DeepMind para reducir un 40 por ciento los requerimientos de energía de sus centros de datos, con lo que ahorró suficiente dinero como para justificar el monto que Google gastó para comprar la compañía londinense de inteligencia artificial. También ha dicho que DeepMind ha ayudado a lograr “sustanciales mejoras en un conjunto de servicios desde YouTube y Google Play hasta los productos de publicidad de Google”.

Compartir: