Entrevista con Luis Alberto Pineda Cortés, creador de “Golem”, el robot que conversa
Laura Rivas/PI
Viernes, 29 de Junio de 2007
El robot “Golem”, un sistema computacional, móvil e interactivo, capaz de sostener una conversación coherente. Foto PI/Octavio NAVA
|
 |
ver galería
|
México D.F., 29 de junio. Prensa Internacional visitó las instalaciones del Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas, de la Universidad Nacional Autónoma de México, para platicar con el ingeniero Luis Alberto Pineda Cortés, jefe del Departamento de Ciencias de la Computación, quien nos presentó al robot “Golem”, un sistema computacional, móvil e interactivo, capaz de sostener una conversación coherente con distintos hablantes, además de realizar exposiciones, explicar temas y fungir como guía de turistas en un museo.
Prensa Internacional: ¿Qué es el proyecto “Golem”?
Luis Alberto Pineda Cortés: Este es un proyecto que empezó desde finales de 1998 y principios del 1999, con la idea de hacer sistemas conversacionales en español hablado. Hemos desarrollado tecnologías que tienen que ver con varios aspectos del lenguaje, principalmente para el reconocimiento de la voz y para llevar a cabo conversaciones sencillas, multimodales, en las que la modalidad principal es el lenguaje. También hay otras modalidades como el despliegue de videos e imágenes. En el robot se incluyó la modalidad motora, es decir, que la conducta motora del robot responde a la conversación.
PI: ¿Tiene entonces el robot dos sistemas? ¿El primero para entender y el segundo para hablar?
LAPC: Es un sistema que tiene varios módulos funcionales. El módulo principal, en el que nos concentramos, es el manejador del diálogo, que es responsable de llevar la conversación y ver qué procesos o qué agentes interactúan en cada momento. También está el que lleva las expectativas conversacionales que hay en un momento dado, que se realizan a través de lo que la gente dice explícitamente, ese es el central. Hay otro agente que realiza la voz, la sintetiza, toda la voz del sistema es sintetizada. Hay otro agente que regula la conducta motora del robot y, además, hay otro agente que despliega imágenes y videos, así como agentes auxiliares. Todo ellos comprenden el sistema.
PI: ¿Cual es el objetivo de la investigación lingüística?
LAPC: Hay dos aspectos de interés principal. El primero es el estudio del lenguaje a través de la metáfora computacional. El lenguaje es un objeto muy grande que, de alguna manera, define en gran medida lo que somos como seres humanos. Yo creo que las tecnologías de moda, a lo largo de la historia, han sido la metáfora principal para pensar acerca de la ciencia y la tecnología. Ahorita es la metáfora computacional y el lenguaje visto a través de la metáfora computacional. El otro aspecto es que la tecnología computacional es genérica y tiene aplicaciones potenciales en cualquier dominio de interacción con el lenguaje, en particular, nos interesa el lenguaje combinado con otras modalidades. Yo creo que esta tecnología va a estar cada vez más presente en la vida cotidiana y nosotros queremos participar en este desarrollo tecnológico.
PI: ¿Esta tecnología, el robot, está patentada?
LAPC: El robot en sí, no. Sólo una parte del sistema. El robot nosotros lo compramos en Estado Unidos, se venden estos robots para investigación. El robot es una PC, que está sobre una plataforma rodante y tiene un sistema básico. Nuestro trabajo es programarlo. El sistema es realmente sencillo, pero lo que es crucial para nosotros es que el movimiento del robot se dé envuelto en el contexto de la conversación, que sea parte de la cuestión conversacional.
PI: ¿Qué parte del sistema es la que tiene patente?
LAPC: Lo que tenemos patentado es el Corpux Dimex 100, que es parte del proyecto. Nosotros tomamos elementos tecnológicos que están disponibles mundialmente a través de la red. Partiendo de ello, creamos nuestra infraestructura tecnológica de recursos lingüísticos, esos recursos lingüísticos son el Corpux. Hacer un reconocedor de voz requiere de una gran base de datos de diferente fonética de lenguaje. Nosotros tenemos nuestro propio registro de voz humana para la creación de sistemas de reconocimiento de voz en español de México. Hemos recolectado, grabado y etiquetado desde el 2004 y todavía estamos en proceso, porque es un producto muy cuidado, varios niveles de trascripción, de calidad fonética y de información léxica. Eso es lo que está protegido con derechos de autor.
PI: ¿En qué consiste la recolección de lenguaje?
LACP: La idea del sistema es que permita reconocer a diversos hablantes, sea hombre, mujer, más rápido o más despacio. El Corpux Dimex 100, que es realmente un recurso de infraestructura tecnológica que nosotros creamos, es la grabación de 6 mil oraciones, a cargo de 100 hablantes, en nuestra base de datos. De manera paralela, y en colaboración con el Instituto Nacional de Astrofísica Óptica y Electrónica, en Puebla, y simultáneamente, con fonetistas de la Facultad de Filosofía y Letras, y la asesoría de la Universidad Autónoma de Barcelona, desarrollamos una tecnología para decidir cómo etiquetar la información fonética de esas 6 mil oraciones. Con esa información se entrenan los Modelos Ocultos de Harkov, con los que se construyen los reconstructores de voz. Lo que ha sucedido es que tenemos un Corpux muy fino, que tiene información fonética realmente de alta calidad. Con esto y con otros colegas de la Universidad de Rochester, y del Florida Institute for Human and Machina Cognition, creamos diversos reconocedores de voz, porque lo que hacemos es crear una plataforma tecnológica para crear reconocedores en general.
PI: ¿Han pensado en darle uso comercial?
LAPC: Estamos abiertos, de hecho no tiene que ser el robot necesariamente, la tecnología conversacional que estamos desarrollando puede ser sin robot. Puede ser un micrófono y unas bocinas en el stand de un museo, para que la gente llegue y hable de ese objeto en lenguaje natural y reciba respuestas en lenguaje natural, con proyección de videos y todo eso. Si hay alguien interesado, pues nosotros estaremos encantados de explorar la posibilidad.
PI: ¿Qué es lo que sigue en esta investigación?
LAPC: Con el Corpux Dimex 100 y sus diferentes modelos de trascripción estamos obteniendo muy buenos resultados de reconocimiento, pero el recurso todavía no se ha terminado. Tenemos que terminar hasta el cien por ciento, con eso pensamos que lograremos mejores niveles de reconocimiento, ante más hablantes, en mayores condiciones de ruido y mayor rango de edades. Por otro lado, en la parte de las conversaciones, que es lo central de los esquemas, queremos hacerlos más flexibles, para que las conversaciones puedan ser más flexibles. Otra dirección es incorporar modalidades de entrada al sistema, como es la visión. Resulta que el problema de cómo nos ubicamos en el entorno por medio de la visión es sumamente complejo de resolver, entonces, estamos interesados en incorporar la visión y el contexto de la conversación para que el robot se localice.
PI: ¿Cuantas personas intervinieron para crear a “Golem”?
LACP: ¿A lo largo del tiempo? Esta es la tercera generación. En esta última fase, yo soy el único investigador del proyecto. Hay dos chicas, que son técnicas académicas; hay una chica, que es personal académico; un estudiante doctoral; un estudiante de maestría y cinco estudiantes de licenciatura. Aparte está el personal de servicio social y, además, en estos últimos dos meses se incorporaron dos muchachos de Jóvenes a la Investigación. En estas tres generaciones han colaborado muchas personas de manera formal, de servicio social, otros investigadores, académicos, mucha gente.
PI: ¿Participará en algún foro internacional de ciencia?
LAPC: No tenemos contemplada una participación inmediata, tal vez en el Concurso Nacional de Robótica, que va a ser en Puebla, hagamos una demostración, pero ahorita nos importa seguir investigando y, si hay oportunidad y recursos, pues iremos.
PI: Ultima pregunta. ¿En lo personal, cuáles son sus planes? Se ha mencionado que tiene ofertas de trabajo en el extranjero.
LAPC: ¿Se habló de eso? No. Yo soy investigador definitivo de la UNAM. Tengo derecho a tomar mi año sabático muy pronto, estoy viendo el hacerlo, creo que es un momento oportuno para mí, pero es una cosa que todos los investigadores hacemos. Yo hice el doctorado en Edimburgo y desde que regresé he trabajado aquí en México. De hecho, el proyecto en realidad se llama DIME, Diálogos Inteligentes Multimodales en Español, y “Golem” surgió como una parte del proyecto para incorporar la modalidad motora a los sistemas conversacionales, he iniciado varios grupos de investigación como éste en diversas instituciones.