La traducción interactiva del habla

 

Interactive translation of conversational speech

 

Alex Waibel

 

_______________________

© Interactive Translation of Conversational Speech, Alex Waibel (http://www.is.cs.cmu.edu).

 

 

Los servicios de lenguaje hablado multilingüe crecen cada vez más. El auge de los servicios de información automatizada genera la necesidad de desarrollar nuevos proyectos, algunos de los cuales ya están en marcha. El autor, creador de uno de los principales sistemas para la traducción del habla (JANUS), estudia la evolución del mismo y analiza las perspectivas de futuro en este campo de las tecnologías de la lengua.

 

Multilingual spoken language services are growing increasingly. The growth of automatic information services has set off the need to develop new projects, some of which are already active. The author, who is also the creator of one of the main systems for speech recognition (JANUS), reflects on how translation systems have evolved and the future of speech technology.

 

 

El multilingüismo adquirirá la forma hablada cuando los servicios de información estén listos para expandirse más allá de las fronteras nacionales o a través de grupos lingüísticos. El acceso a las bases de datos, a través del habla, requerirá el conocimiento de muchas lenguas para poder servir a los clientes de distintos grupos de lenguas. Los operadores de servicios públicos (urgencias, policía, etc.) a menudo reciben llamadas de personas que no saben hablar la lengua del país; y en la actualidad, compañías de teléfono en Estados Unidos, Europa y Japón ofrecen servicios de traducción. Además, las películas y los programas de televisión son traducidos habitualmente y presentados con doblaje, subtítulos o en copias multilingües. Con el auge de los servicios de información automatizada surge una necesidad en aumento del procesamiento del lenguaje multilingüístico automatizado. Y si bien existen pocos servicios de habla multilingüe, los programas de investigación que se están llevando a cabo son numerosos. Los objetivos principales en este campo son:

 

• Identificación del lenguaje hablado.

• Reconocimiento y comprensión del habla multilingüe en la interacción hombre-máquina.

• Traducción del habla en la comunicación interpersonal.

Esta última es la más ambiciosa, ya que requiere una mayor precisión y especificidad durante el análisis porque necesita trabajar con la lengua hablada no fluida y coloquial.

 

Reconocimiento del habla y traducción

 

Hasta hace muy poco tiempo, era inconcebible la idea de mantener una conversación telefónica con alguien que no hablara nuestra misma lengua. En el estado actual de las investigaciones para el reconocimiento del habla y dado que las máquinas de traducción están aún muy lejos de ser perfectas, no se esperaba que la combinación de dos tecnologías pudiera alcanzar un funcionamiento óptimo.

Sin embargo, desde finales de la década de los ochenta se han ido sucediendo increíbles avances en los procesos de reconocimiento del habla. Se ha pasado de aparatos dependientes del hablante, procesadores de frases independientes que reconocían una terminología limitada (por ejemplo, dígitos) a programas de dictado independientes del hablante, de discurso continuo y de amplia terminología con alrededor de un 10 % de errores léxicos. De forma similar, la traducción computerizada ha avanzado considerablemente y ahora tenemos a nuestra disposición de forma comercial un gran número de productos de traducción de textos.

No obstante, además de mejorar todos los componentes, cada vez se ve más claro que la buena traducción del habla no se puede lograr con la simple combinación entre un mejor reconocimiento del habla y los componentes de la traducción computerizada. Precisamente porque se ha hecho posible el reconocimiento continuado del habla sin pretender lograr una ejecución perfecta de reconocimiento de fonemas (en realidad, la precisión de los fonemas varía aún entre el 50 y 70 %), se debe atacar el problema en su totalidad. Pongamos por ejemplo a dos hispanohablantes que están intentando acordar la hora para una cita y se muestra la traducción literal de una expresión transcrita manualmente en el modo en que realmente se habló:

 

«... sí sí el viernes diecinueve puedo sí porque sabes me voy de viaje hoy la verdad así es que este mes es muy viajero me voy el día seis de viaje y estoy hasta el doce así que el día diecinueve me viene muy bien francamente...»

 

Al aplicarle a esta intervención el programa de traducción de texto comercial, se obtuvo la siguiente traducción (nótese que ésta también realiza un reconocimiento perfecto del habla):

 

«yes yes on friday nineteen can yes because know I go me of trip o today the truth such is that this month is very traveler I go me the day six of trip and I am until the twelve as soon as the day nienteen comes me very well outspokenly...»

 

¿Qué no ha funcionado? El hecho es que las frases dichas por los seres humanos casi nunca están bien elaboradas, en el sentido de que casi nunca obedecen a las estrictas normas sintácticas. Tienen distorsiones, vacilaciones (em, hmm, etc.), repeticiones («... por tanto, creo, creo, creo, qué estaba diciendo»), e inicios falsos («¿qué tal si quedamos el jue... mm...viernes?»). Pero situados dentro del contexto de la discusión son perfectamente comprensibles para un oyente humano. Por lo tanto, para que un programa de traducción del habla tenga éxito no debe apoyarse en un reconocimiento o una sintaxis perfecta. Más bien, se debe buscar una interpretación óptima, desde un punto de vista semántico, del mensaje del hablante al tiempo que pasa por alto, de forma juiciosa, las palabras o fragmentos irrelevantes. Pero el problema descrito aumenta por los errores de reconocimiento y los ruidos ambientales que se producen durante la grabación del discurso hablado, tales como toses, risas, sonidos telefónicos, golpes de puertas, etc. Sin el tratamiento apropiado, estos sonidos pueden reconocerse como palabras de la conversación, que pueden provocar un daño potencial al proceso de traducción.

La gran variación en la lengua hablada es otro problema a tener en cuenta en el reconocimiento de los diálogos interpersonales. En el habla rápida se observa una proporción de errores considerablemente más elevada debido a la coarticulación, la reducción o elisión entre las palabras. Un diálogo hablado no está compuesto por frases en el sentido tradicional, ni tampoco existen marcadores de puntuación para delimitarlos. Más bien sucede lo contrario, cada expresión es fragmentaria y el turno de intervención de cada interlocutor contiene a menudo dos o más frases o conceptos («...no, el martes no me va bien... qué tal... el miércoles por la mañana... el miércoles 12...). Incluso si contáramos con marcadores de puntuación, los intentos para traducir tales expresiones fragmentarias darían como resultado un output incorrecto.

Para proporcionar una buena comunicación del lenguaje hablado, que traspase las barreras lingüísticas, debemos por tanto «interpretar» una intervención hablada, o extraer su objetivo «principal», en lugar de abordar una frase con su simple traducción. A menudo, esto requiere realizar un resumen. Así, nuestra propuesta de traducción para el ejemplo anterior sería: ...I’m available on friday the nineteenth... («...estoy libre el viernes diecinueve...»). Sólo mediante una interpretación semántica y pragmática dentro de un dominio de discurso podemos esperar que se elaboren expresiones culturalmente apropiadas en otra lengua.

 

El traductor de lengua hablada JANUS

 

La investigación actual sobre la traducción del habla se inició con programas al final de la década de los ochenta y principios de los noventa. Su principal objetivo era demostrar la viabilidad del concepto. Además de las restricciones del dominio, estos primeros sistemas informáticos establecieron las bases del estilo hablado, la trascendencia gramatical y la extensión de la terminología. La estructura de estos proyectos era casi siempre estrictamente secuencial y abarcaba el reconocimiento del habla, el análisis y la elaboración del lenguaje. El desarrollo se llevó a cabo en instituciones académicas e industriales que representaron un primer paso, modesto pero significativo, hacia la comunicación multilingüe. Entre los primeros programas se cuentan prototipos de investigación independientes desarrollados por ATR,1 AT&T,2 la Universidad Carnegie Mellon (CMU) y la Universidad de Karlsruhe,3 NEC4 y Siemens AG. La mayoría se crearon mediante colaboraciones internacionales que proporcionaron la experiencia interlingüística. Entre estas cooperaciones internacionales se formó el Consorcio para la Investigación Avanzada de la Traducción de la Lengua Hablada o C-STAR (Consortium for Speech Translation Advanced Research) como un grupo voluntario de instituciones destinadas a la creación de programas de traducción de la lengua hablada. Surgió a partir de una colaboración entre ATR (Interpreting Telephony Laboratories; en la actualidad, Interpreting Telephony Laboratories) en Kioto (Japón); la Universidad Carnegie Mellon (CMU) en Pittsburg (Estados Unidos); Siemens AG en Munich (Alemania); y la Universidad de Karlsruhe (UKA) en Karlsruhe (Alemania). Y posteriormente se añadieron otros miembros como socios y colaboradores: ETRI (Corea), IRST (Italia), LIMSI (Francia), SRI (Reino Unido), IIT (India), Lincoln Labs (Estados Unidos), DFKI (Alemania), MIT (Estados Unidos), y AT&T (Estados Unidos). El Consorcio sigue creciendo y funcionando con un tipo de organización bastante distendida e informal en la que todos los socios crean programas completos o tecnología de componentes, lo que implica maximizar el intercambio técnico y minimizar el costoso trabajo en las interfaces software/hardware. Además de la actividad de los consorcios, como C-STAR, y de la investigación industrial descrita anteriormente, existen iniciativas costeadas por los gobiernos de distintos países. Una de las más extensas es Verbmobil, un trabajo de ocho años patrocinado por el BMFT, el Ministerio de la Ciencia y la Tecnología alemán,5 que engloba a 32 grupos de estudio.

Uno de los primeros sistemas diseñados para la traducción del habla fue JANUS. Se desarrolló en la Universidad de Carnegie Mellon y la Universidad de Karlsruhe a finales de los años ochenta y principios de los noventa en colaboración con ATR (Japón) y Siemens AG (Alemania). Desde ese momento, en ambos lugares, se han desarrollado funciones más avanzadas. Los resultados obtenidos en los trabajos contribuyen a los que se están realizando en la actualidad sobre la traducción del lenguaje hablado en Estados Unidos (proyecto Enthusiast) y Alemania (proyecto Verbmobil).6 Mientras que el primer prototipo, el JANUS-I, procesaba sólo el habla sintácticamente correcta (lectura) sobre un menor número de palabras (500 palabras), el JANUS-II funciona en la actualidad con diálogos interpersonales espontáneos entre personas, en dominios limitados con terminologías de alrededor de 3000 palabras. Hoy en día acepta registros de entrada en inglés, alemán, español, japonés y coreano, y realiza traducciones al alemán, inglés, español, japonés y coreano. El uso de otras lenguas está en proyecto. El objetivo de la investigación para JANUS-II, además de la lengua hablada sintácticamente bien construida, o expresiones del habla relativamente bien formadas, se ha centrado en la traducción del lenguaje conversacional espontáneo e interpersonal. Y esto implica la creación de una base de datos para la formación, las pruebas y el establecimiento de modelos de referencia. Para lograr realismo en las situaciones prácticas ha de elegirse un dominio de funciones que requiere una traducción entre humanos que intentan comunicarse unos con otros. Algunas aplicaciones de la traducción del habla contendrán elementos de diálogos hombre-ordenador cuando un ordenador interviene en el proceso de comunicación proporcionando feedback a los usuarios. No obstante, en otras situaciones es mejor la traducción simultánea de conversaciones interpersonales.

 

Claves y mejoras del sistema

 

La clave del problema de la traducción del habla radica en conseguir un enfoque adecuado para interpretar la incertidumbre y la ambigüedad en cada paso del proceso. JANUS-II se diseñó para solventar este problema mediante la aplicación de todo tipo de fuentes de información, desde la acústica hasta el discurso, con lo que se reduce la búsqueda de la traducción óptima. A diferencia del JANUS-I, que se basaba completamente en el análisis sintáctico, el JANUS-II emplea casi exclusivamente el análisis semántico. Con ello se obtiene una interpretación fundada del significado en lugar de reflejar distorsiones en la expresión y registrar errores de reconocimiento del registro de entrada. Se emplean varios enfoques donde se utilizan gramáticas semánticas y se elabora una representación del significado independiente del lenguaje llamada interlingua.

Existen tres ventajas principales en el enfoque de la interlingua. En primer lugar, lo que importa es el objetivo de la expresión del output, sea cual sea la forma en que se exprese. Así frases del tipo: «No tengo tiempo el martes», «El martes está lleno», «Estoy de vacaciones el martes» pueden catalogarse dentro de la misma interpretación: «No estoy disponible el martes» y se puede generar una frase apropiada en la lengua output. Hasta las expresiones que dependen de la cultura pueden traducirse de un modo culturalmente apropiado. La frase «El martes no me va bien» traducida como «Kayoobi-wa chotto tsugo-ga warui» literalmente sería: «En cuanto al martes, las circunstancias son un poco adversas». La segunda ventaja es el sistema comparativo por el cual se pueden añadir lenguajes adicionales, y el sistema de generación de output en cualquier lenguaje constituye la tercera ventaja. Todo ello permite al usuario verificar si una expresión de input ha sido analizada correctamente y esta propiedad tan importante mejora la utilidad de la traducción del habla, ya que el usuario no suele saber si una traducción del input en un lenguaje desconocido es correcta o incorrecta.

Por supuesto, a lo largo de los años se han estudiado ampliamente las representaciones semánticas en el proceso natural del lenguaje, y se han llevado a cabo una serie de sistemas de traducción de textos basados en la interlingua.7-9 Consideramos especialmente ventajoso el empleo de un enfoque basado en la interlingua para la traducción del habla espontánea, puesto que la lengua hablada no está tan bien formada sintácticamente y es menos fiable, pero normalmente contiene mayor carga semántica.

En el esfuerzo por potenciar el rendimiento general del sistema trabajamos en las estrategias de fondo de habla y traducción. En particular, teniendo en cuenta la necesidad de rearticular y reorganizar nuestro dispositivo de reconocimiento para diferentes lenguas y diferentes tareas, queremos automatizar muchos aspectos del diseño del sistema. Con las siguientes estrategias se han conseguido recientes mejoras en los resultados:10

 

Adaptación de códigos guiada por datos. Son métodos destinados a la optimización automática del número de parámetros.

Mejora de los diccionarios. Debido a la variabilidad, las variaciones dialectales y los fenómenos de coarticulación hallados en el habla espontánea, los diccionarios de pronunciación deben ser modificados y especializados para cada lengua. Para eliminar costosas intervenciones manuales y para un mejor diseño, recurrimos a métodos guiados por datos para descubrir estas variantes.

Modelos lingüísticos de base morfológica. En el caso de las lenguas caracterizadas por una morfología más rica, un mayor uso de inflexiones y mayor derivación que en el inglés, en los diccionarios y modelos lingüísticos se usan unidades más adecuadas en lugar de la «palabra».

Modelos de lenguaje basados en frases o familias de palabras. Las palabras que pertenecen a familias de palabras (lunes, martes, viernes...) o que aparecen con frecuencia (por ejemplo, estoy a punto de, vale la pena, nunca se sabe) se descubren automáticamente mediante técnicas de sectorización y se añaden a un diccionario como palabras especiales, frases o minigramáticas.

Subvocabularios especiales.11 En un segundo paso de clasificación se procesan subvocabularios especiales susceptibles de confusión (por ejemplo, el deletreado continuo de nombres y acrónimos) mediante modelos conexionistas.

 

Medidas de evaluación, aplicaciones y desarrollo

 

Para evaluar el rendimiento y el progreso relativo en el desarrollo de los traductores del habla se han ideado diversas medidas de evaluación. Dicha evaluación se puede efectuar a tres niveles:

 

• Índice de reconocimiento del habla: medido, como es habitual, contando los errores de sustitución, eliminación e inserción en una base de datos no conocida previamente.

• Análisis semántico basado en las transcripciones: se puede medir si se ha establecido una referencia o representación en la interlingua deseada. La desventaja de este enfoque es que es subjetivo y requiere un trabajo manual considerable.

• Precisión de la traducción del inicio al fin a partir de 1) transcripciones y 2) input del dispositivo de reconocimiento. Cada cláusula o fragmento conceptual (no cada intervención) representa una unidad de evaluación para evitar la consideración exagerada de algunas alocuciones cortas reafirmatorias (por ejemplo, «Eso es», «vale»).

 

La necesidad de una interpretación del lenguaje hablado surge en diferentes situaciones, cada una de las cuales plantea diferentes desafíos y oportunidades. Hemos empezado a experimentar con tres escenarios diferentes de aplicación: 1) la interpretación del lenguaje hablado en el entorno de una conferencia de vídeo interactiva, 2) un traductor del habla portátil, 3) la traducción simultánea de diálogos. El prototipo de estación de videoconferencia, con un dispositivo de interpretación del lenguaje hablado, se realiza efectuando una traducción a partir de la interlingua (independiente del lenguaje) a la lengua del usuario. El usuario puede verificar si la paráfrasis refleja el significado deseado del input emitido. Si es así, aprieta un botón de envío, que sustituye la paráfrasis por la traducción en el lenguaje de salida (output) seleccionado y la envía al otro punto de videoconferencia. En el segundo punto, la traducción aparece en subtítulos bajo la imagen de vídeo transmitida por nuestro usuario. También se sintetiza en el lenguaje de destino para la creación de un output hablado. La pantalla de traducción también se puede usar en entornos de colaboración virtual para poner en común pizarras virtuales o aplicaciones a las que pueden hacer referencia los diferentes interlocutores. La traducción puede llegarles en el doble del tiempo real y de este modo el sistema se puede beneficiar del feedback obtenido del usuario, que permite conseguir resultados correctos. También ofrece modos alternativos de input del usuario y de recuperación de errores. De este modo se puede conseguir una comunicación efectiva a pesar de que los procesos de reconocimiento y de traducción sean imperfectos. Además de ofrecer variados mecanismos de recuperación, la estación de traducción también usa un estilo expresivo en cierto sentido más inteligible que el habla usada en el discurso interpersonal.

El sistema JANUS-II también ofrece otras formas sencillas de ayuda, como permitir simplemente que el usuario escriba con el teclado correcciones a los errores de reconocimiento. El entorno ofrece aún muchas más oportunidades de estudio de los factores humanos de la traducción interactiva del habla. El mejor cociente entre velocidad de procesamiento y precisión, el papel de las reparaciones y la multimodalidad en el proceso de traducción, cómo tratar las expresiones que quedan fuera del dominio o cómo aprender e integrar nuevas palabras o conceptos son temas en los que se va a seguir investigando.

Respecto al segundo punto, el dispositivo portátil de traducción del habla JANETTE, es una versión reducida del JANUS-II cuyo sistema funciona con un PC portátil. En esta configuración, el sistema aún tarda en traducir cada intervención casi el doble que en las estaciones de vídeo. La traducción se presenta a través de un auricular o una pantalla supraocular donde aparece traducción en forma de texto en unas gafas transparentes, permitiendo al usuario ver los subtítulos bajo la cara de la persona con la que está hablando. Esta presentación alternativa del resultado de la traducción permite un mayor rendimiento, puesto que la traducción se puede ver sin interrupciones. Un output acústico podría permitir la adquisición de feedback por parte del sistema, pero la visualización de la traducción en pantalla puede aportar una mayor velocidad de comunicación. Aún quedan por investigar, mediante estudios de campo, los factores humanos que influyen en estos nuevos dispositivos.
Por último, respecto a la traducción simultánea pasiva de diálogos, los sistemas de interpretación descritos hasta ahora ofrecen la oportunidad de obtener feedback, de verificar y corregir la traducción entre dos interlocutores cooperantes que quieren colaborar uno con otro. Sin embargo, en circunstancias de una conferencia múltiple, emisiones de televisión o radio al extranjero o traducción simultánea en conferencias, nos encontramos con una situación de traducción no cooperativa pasiva. En estos casos, el hablante no puede participar en el proceso de comunicación para verificar la traducción. Por otra parte, en el caso de un diálogo hablado, este tipo de traducción puede resultar especialmente difícil, puesto que requiere un procesamiento del habla interpersonal, una mayor coarticulación y un cambio de turnos de intervención potencialmente más complejo. En este sentido, la rápida sucesión de intervenciones, que a veces se solapan, hacen que la estructuración cognitiva de una traducción resulte especialmente difícil, también para las personas que intentan traducir un diálogo hablado.

Nuestros resultados citados anteriormente en referencia a los diálogos de intervenciones cruzadas y alternadas, no obstante, sugieren que las limitaciones cognitivas que experimentan los traductores humanos no son siempre aplicables a las máquinas: dos procesos separados de traducción del habla pueden procesar fácilmente canales separados de un diálogo y producir traducciones al ritmo de la conversación. En nuestro laboratorio se ha instalado un traductor de diálogos que separa los turnos de intervención en los mayores puntos de ruptura y envía las señales correspondientes de habla a cinco procesadores que generan traducciones a un nivel cada vez mayor durante el transcurso de una conversación entre personas (en este caso, una vez más, dos sujetos acordando una reunión). A pesar de la naturaleza no fluida de una conversación tan interactiva y rápida, se puede conseguir una traducción precisa del diálogo hablado en este dominio durante más del 70 % del tiempo de conversación.

 

Bibliografía

 

1 Morimoto, T.; Takezawa, T.; Yato, F.; Sagayama, S.; Tashiro, T.; Nagata, M.; Kurenmatsu, A.: «ATR’s Speech Translation System: ASURA», EUROSPEECH 1993: 1295.

2 Roe, D.B.; Pereira, F.C.N.; Sproat, R.W.; Riley, M.D.: «Efficient grammar processing for a spoken language translation system», ICASSP, 1992; 1: 213.

3 Waibel, A.; Jain, A.M.; McNair, A.E.; Saito, H.; Hauptmann, A.G.; Tebelskis, V.: «JANUS: a speech-to-speech translation system using connectionist and symbolic processing strategies», ICASSP, 1991.

4 Hatazaki, K.; Noguchi, J.; Okumura, A.; Yoshida, K.; Watanabe, T.: «INTERTALKER: an experimental automatic interpretation system using conceptual representation», ICSLP, 1992.

5 Wahlster, W.: «First results of Verbmobil: translation assistance for spontaneous dialogues» ATR International Workshop on Speech Translation, November 8-9, 1993.

6 Vermobil: http://www.dfki.uni-sb.de/verbmomil

7 McNair, A.E.; Waibel, A.: «Improving recognizer acceptance through robots, natural speech repair», ICSLP, 1994; 3: 1299.

8 Hutchins, W.J.and H.Somers. «An Introduction to Machine Translation, Acadamic Press, San Diego, 1992.

9 Hovy, EH.: «How MT Works» (Special Feature on Machine Translation), Byte Magazine 1993; January: 167-176.

10 Suhm, B.; Geutner, P.; Kemp, T. et al.: «JANUS: towards multilingual spoken language translation», Proceedings of the ARPA Spoken Language Technology Workshop, Austin (Texas), Jaunary 1995.

11 Hild, H.; Waibel, A.: «Integrating spelling into spoken dialogue recognition», EUROSPEECH 1997; 2.

 

Alex Waibel

Director de Interactive Systems Laboratories en la School of Computer Science - Carnegie Mellon University de Pittsburgh, Estados Unidos y University of Karlruhe, en Alemania. Entre los principales retos de investigación de este centro se encuentran el proyecto JANUS, un programa a gran escala creado para la traducción de lenguaje hablado, y el proyecto INTERAC cuyo objetivo es mejorar, a través de diversos procedimientos, la comunicación hombre-ordenador.

waibel@cs.cmu.edu