Enlaces accesibilidad

Un nuevo sistema desarrollado en España permite dirigir un robot con la voz

  • Es de los pocos que existen en español y con una alta tasa de acierto
  • El método permite enviar órdenes predefinidas de personas con distintas voces
  • La orden se capta con un micrófono y llega al robot por wifi

Por
El robot empleado para probar el sistema de enviar órdenes por voz.
El robot empleado para probar el sistema de enviar órdenes por voz.

Un nuevo método, diseñado por investigadores de la Universidad de Málaga, es capaz de controlar de forma remota un robot con la voz.

El sistema, cuyo estudio publica la revista Robotica, logra una alta tasa de reconocimiento de palabras y controlar la plataforma robótica en tareas de navegación. Son ventajas que abren la puerta a su futura aplicación a otros dispositivos en entornos de asistencia a personas, como sillas de ruedas, según recoge Fundación Descubre.

En la actualidad existen diversos sistemas de reconocimiento de voz para el control robótico. Sin embargo, los responsables de este sistema, del grupo de Ingeniería de Sistemas Integrados de la UMA, defienden que su método se diferencia en que es de los pocos que existen para hispanohablantes y en su tasa de éxito en el reconocimiento.

Desarrollo de código abierto

Los expertos han desarrollado su modelo acústico en el sistema operativo Linux, ya que la arquitectura para controlar el robot trabaja con varios procesos simultáneos.

Asimismo, en lo referente al idioma, han utilizado un software denominado Julius/Julian, un sistema de reconocimiento de voz de código abierto.

“Actualmente solo hay modelos acústicos para japonés e inglés. Al no existir modelo acústico específico para español, el desarrollo de este elemento ha supuesto la parte central de nuestro trabajo”, ha comentado el investigador de la Universidad de Málaga Alberto Poncela, responsable del proyecto.

Reconocimiento de palabras del 99%

En cuanto a los resultados de las pruebas realizadas con el modelo acústico, los investigadores han conseguido una tasa de reconocimiento de palabras cercana al 99% y una tasa de reconocimiento de comandos, es decir, de órdenes, del 95% o superior.

"A esto se suma que el robot consigue ir al sitio que se le envía bajo el control de la voz de un usuario no experto”, ha subrayado Poncela.

Para reconocer una orden emitida por una persona, el robot requiere un léxico, es decir, un conjunto de palabras que el sistema puede reconocer así como la gramática, las reglas y las restricciones de ese vocabulario.

“Además hay que construir un modelo acústico, es decir, la representación estadística de los sonidos que forman cada una de las palabras habladas usadas en la gramática. El modelo acústico se obtiene tras una fase de entrenamiento. Nosotros hemos considerado 802 palabras, agrupadas en 72 frases”, precisa otra de las investigadoras participantes en el estudio, Leticia Gallardo.

Entrenamiento para cada voz

Por otra parte, el sistema tiene que ser entrenado para cada usuario, ya que las características de la voz de cada persona son distintas, con lo que hay que afinar hasta hacerlo preciso y personalizado.

“Para ello, se graban las frases de entrenamiento con un micrófono y se parametrizan con unos coeficientes numéricos con las características propias de la voz. A partir de estos coeficientes se construye el modelo acústico”, detalla la investigadora.

A continuación, el vocabulario, la gramática y el modelo acústico se introducen en el motor de voz, que tiene como salida la frase reconocida.

“Definimos un juego de comandos técnicos de movimiento cortos, por ejemplo 'parar', y otros largos 'girar 20 grados' que se emiten de forma remota con un micrófono, se reconoce el comando y, mediante wifi, la orden llega al robot, que tiene un punto de acceso”, especifica.

Pruebas de reconocimiento y navegación

Los investigadores han llevado a cabo dos tipos de pruebas para testear el sistema. Las primeras, para comprobar si el sistema reconoce la voz y las órdenes emitidas.

Un comando solo es correcto si se reconocen todas las palabras. Por ejemplo, la acción 'girar' va asociada a un valor numérico (20) y una unidad (grados) en la frase 'girar 20 grados'. El sistema tiene en cuenta todas esas variables y consigue, en palabras de los investigadores, buenos resultados.

El segundo tipo de pruebas guardan relación con la navegación. Para ello, simularon entornos complejos para que un robot modelo Pioneer P2AT los recorriera y llegara a un punto. Un usuario no experto en robótica emitió las órdenes con un micrófono. “El resultado fue que esta persona hizo llegar el robot a su destino”, subraya.

Este trabajo se enmarca en el proyecto ‘Sistema Inteligente de Asistencia Domiciliaria’ SIAD destinado a crear una arquitectura genérica capaz de adaptarse por sí misma a distintos tipos de usuarios mediante aprendizaje y financiado por la Consejería de Economía, Innovación, Ciencia y Empleo de la Junta de Andalucía.