_______________________
© Interactive
Translation of Conversational Speech, Alex Waibel (http://www.is.cs.cmu.edu).
Los
servicios de lenguaje hablado multilingüe crecen cada vez más. El auge de los
servicios de información automatizada genera la necesidad de desarrollar nuevos proyectos, algunos de los cuales ya están en
marcha. El autor, creador de uno de los principales sistemas para la traducción
del habla (JANUS), estudia la
evolución del mismo y analiza las perspectivas de futuro en este campo de las
tecnologías de la lengua.
Multilingual
spoken language services are growing increasingly. The growth of automatic
information services has set off the need to develop new projects, some of
which are already active. The author, who is also the creator of one of the
main systems for speech recognition (JANUS),
reflects on how translation systems have evolved and the future of speech
technology.
El multilingüismo adquirirá la forma hablada
cuando los servicios de información estén listos para expandirse más allá de
las fronteras nacionales o a través de grupos lingüísticos. El acceso a las
bases de datos, a través del habla, requerirá el conocimiento de muchas lenguas
para poder servir a los clientes de distintos grupos de lenguas. Los operadores
de servicios públicos (urgencias, policía, etc.) a menudo reciben llamadas de
personas que no saben hablar la lengua del país; y en la actualidad, compañías
de teléfono en Estados Unidos, Europa y Japón ofrecen servicios de traducción.
Además, las películas y los programas de televisión son traducidos
habitualmente y presentados con doblaje, subtítulos o en copias multilingües.
Con el auge de los servicios de información automatizada surge una necesidad en
aumento del procesamiento del lenguaje multilingüístico automatizado. Y si bien
existen pocos servicios de habla multilingüe, los programas de investigación
que se están llevando a cabo son numerosos. Los objetivos principales en este
campo son:
• Identificación del lenguaje hablado.
• Reconocimiento y comprensión del habla
multilingüe en la interacción hombre-máquina.
• Traducción del habla en la comunicación
interpersonal.
Esta última es la más ambiciosa, ya que
requiere una mayor precisión y especificidad durante el análisis porque
necesita trabajar con la lengua hablada no fluida y coloquial.
Reconocimiento
del habla y traducción
Hasta hace muy poco tiempo, era inconcebible
la idea de mantener una conversación telefónica con alguien que no hablara nuestra
misma lengua. En el estado actual de las investigaciones para el reconocimiento
del habla y dado que las máquinas de traducción están aún muy lejos de ser
perfectas, no se esperaba que la combinación de dos tecnologías pudiera
alcanzar un funcionamiento óptimo.
Sin embargo, desde finales de la década de
los ochenta se han ido sucediendo increíbles avances en los procesos de
reconocimiento del habla. Se ha pasado de aparatos dependientes del hablante,
procesadores de frases independientes que reconocían una terminología limitada
(por ejemplo, dígitos) a programas de dictado independientes del hablante, de
discurso continuo y de amplia terminología con alrededor de un 10 % de errores
léxicos. De forma similar, la traducción computerizada ha avanzado considerablemente
y ahora tenemos a nuestra disposición de forma comercial un gran número de
productos de traducción de textos.
No obstante, además de mejorar todos los
componentes, cada vez se ve más claro que la buena traducción del habla no se
puede lograr con la simple combinación entre un mejor reconocimiento del habla
y los componentes de la traducción computerizada. Precisamente porque se ha
hecho posible el reconocimiento continuado del habla sin pretender lograr una
ejecución perfecta de reconocimiento de fonemas (en realidad, la precisión de
los fonemas varía aún entre el 50 y 70 %), se debe atacar el problema en su
totalidad. Pongamos por ejemplo a dos hispanohablantes que están intentando
acordar la hora para una cita y se muestra la traducción literal de una
expresión transcrita manualmente en el modo en que realmente se habló:
«...
sí sí el viernes diecinueve puedo sí porque sabes me voy de viaje hoy la verdad
así es que este mes es muy viajero me voy el día seis de viaje y estoy hasta el
doce así que el día diecinueve me viene muy bien francamente...»
Al
aplicarle a esta intervención el programa de traducción de texto comercial, se
obtuvo la siguiente traducción (nótese que ésta también realiza un
reconocimiento perfecto del habla):
«yes
yes on friday nineteen can yes because know I go me of trip o today the truth
such is that this month is very traveler I go me the day six of trip and I am
until the twelve as soon as the day nienteen comes me very well outspokenly...»
¿Qué
no ha funcionado? El hecho es que las frases dichas por los seres humanos casi
nunca están bien elaboradas, en el sentido de que casi nunca obedecen a las
estrictas normas sintácticas. Tienen distorsiones, vacilaciones (em, hmm,
etc.), repeticiones («... por tanto, creo, creo, creo, qué estaba diciendo»),
e inicios falsos («¿qué tal si quedamos el jue... mm...viernes?»). Pero
situados dentro del contexto de la discusión son perfectamente comprensibles
para un oyente humano. Por lo tanto, para que un programa de traducción del
habla tenga éxito no debe apoyarse en un reconocimiento o una sintaxis
perfecta. Más bien, se debe buscar una interpretación óptima, desde un punto de
vista semántico, del mensaje del hablante al tiempo que pasa por alto, de forma
juiciosa, las palabras o fragmentos irrelevantes. Pero el problema descrito
aumenta por los errores de reconocimiento y los ruidos ambientales que se
producen durante la grabación del discurso hablado, tales como toses, risas,
sonidos telefónicos, golpes de puertas, etc. Sin el tratamiento apropiado,
estos sonidos pueden reconocerse como palabras de la conversación, que pueden
provocar un daño potencial al proceso de traducción.
La
gran variación en la lengua hablada es otro problema a tener en cuenta en el
reconocimiento de los diálogos interpersonales. En el habla rápida se observa
una proporción de errores considerablemente más elevada debido a la
coarticulación, la reducción o elisión entre las palabras. Un diálogo hablado
no está compuesto por frases en el sentido tradicional, ni tampoco existen
marcadores de puntuación para delimitarlos. Más bien sucede lo contrario, cada
expresión es fragmentaria y el turno de intervención de cada interlocutor
contiene a menudo dos o más frases o conceptos («...no, el martes no me va
bien... qué tal... el miércoles por la mañana... el miércoles 12...). Incluso
si contáramos con marcadores de puntuación, los intentos para traducir tales
expresiones fragmentarias darían como resultado un output incorrecto.
Para proporcionar una buena comunicación del lenguaje hablado, que traspase las barreras lingüísticas, debemos por tanto «interpretar» una intervención hablada, o extraer su objetivo «principal», en lugar de abordar una frase con su simple traducción. A menudo, esto requiere realizar un resumen. Así, nuestra propuesta de traducción para el ejemplo anterior sería: ...I’m available on friday the nineteenth... («...estoy libre el viernes diecinueve...»). Sólo mediante una interpretación semántica y pragmática dentro de un dominio de discurso podemos esperar que se elaboren expresiones culturalmente apropiadas en otra lengua.
El traductor de lengua
hablada JANUS
La
investigación actual sobre la traducción del habla se inició con programas al
final de la década de los ochenta y principios de los noventa. Su principal
objetivo era demostrar la viabilidad del concepto. Además de las restricciones
del dominio, estos primeros sistemas informáticos establecieron las bases del
estilo hablado, la trascendencia gramatical y la extensión de la terminología.
La estructura de estos proyectos era casi siempre estrictamente secuencial y
abarcaba el reconocimiento del habla, el análisis y la elaboración del
lenguaje. El desarrollo se llevó a cabo en instituciones académicas e
industriales que representaron un primer paso, modesto pero significativo,
hacia la comunicación multilingüe. Entre los primeros programas se cuentan
prototipos de investigación independientes desarrollados por ATR,1
AT&T,2 la Universidad Carnegie Mellon (CMU) y la Universidad de
Karlsruhe,3 NEC4 y Siemens AG. La mayoría se crearon
mediante colaboraciones internacionales que proporcionaron la experiencia
interlingüística. Entre estas cooperaciones internacionales se formó el
Consorcio para la Investigación Avanzada de la Traducción de la Lengua Hablada
o C-STAR (Consortium for Speech Translation Advanced Research) como un grupo
voluntario de instituciones destinadas a la creación de programas de traducción
de la lengua hablada. Surgió a partir de una colaboración entre ATR
(Interpreting Telephony Laboratories; en la actualidad, Interpreting Telephony
Laboratories) en Kioto (Japón); la Universidad Carnegie Mellon (CMU) en
Pittsburg (Estados Unidos); Siemens AG en Munich (Alemania); y la Universidad
de Karlsruhe (UKA) en Karlsruhe (Alemania). Y posteriormente se añadieron otros
miembros como socios y colaboradores: ETRI (Corea), IRST (Italia), LIMSI
(Francia), SRI (Reino Unido), IIT (India), Lincoln Labs (Estados Unidos), DFKI
(Alemania), MIT (Estados Unidos), y AT&T (Estados Unidos). El Consorcio sigue
creciendo y funcionando con un tipo de organización bastante distendida e
informal en la que todos los socios crean programas completos o tecnología de
componentes, lo que implica maximizar el intercambio técnico y minimizar el
costoso trabajo en las interfaces software/hardware. Además de la actividad de
los consorcios, como C-STAR, y de la investigación industrial descrita
anteriormente, existen iniciativas costeadas por los gobiernos de distintos
países. Una de las más extensas es Verbmobil, un trabajo de ocho años
patrocinado por el BMFT, el Ministerio de la Ciencia y la Tecnología alemán,5
que engloba a 32 grupos de estudio.
Uno
de los primeros sistemas diseñados para la traducción del habla fue JANUS. Se
desarrolló en la Universidad de Carnegie Mellon y la Universidad de Karlsruhe a
finales de los años ochenta y principios de los noventa en colaboración con ATR
(Japón) y Siemens AG (Alemania). Desde ese momento, en ambos lugares, se han
desarrollado funciones más avanzadas. Los resultados obtenidos en los trabajos
contribuyen a los que se están realizando en la actualidad sobre la traducción
del lenguaje hablado en Estados Unidos (proyecto Enthusiast) y Alemania
(proyecto Verbmobil).6 Mientras que el primer prototipo, el JANUS-I,
procesaba sólo el habla sintácticamente correcta (lectura) sobre un menor
número de palabras (500 palabras), el JANUS-II funciona en la actualidad con
diálogos interpersonales espontáneos entre personas, en dominios limitados con
terminologías de alrededor de 3000 palabras. Hoy en día acepta registros de
entrada en inglés, alemán, español, japonés y coreano, y realiza traducciones
al alemán, inglés, español, japonés y coreano. El uso de otras lenguas está en
proyecto. El objetivo de la investigación para JANUS-II, además de la lengua
hablada sintácticamente bien construida, o expresiones del habla relativamente
bien formadas, se ha centrado en la traducción del lenguaje conversacional
espontáneo e interpersonal. Y esto implica la creación de una base de datos
para la formación, las pruebas y el establecimiento de modelos de referencia.
Para lograr realismo en las situaciones prácticas ha de elegirse un dominio de
funciones que requiere una traducción entre humanos que intentan comunicarse
unos con otros. Algunas aplicaciones de la traducción del habla contendrán
elementos de diálogos hombre-ordenador cuando un ordenador interviene en el
proceso de comunicación proporcionando feedback
a los usuarios. No obstante, en otras situaciones es mejor la traducción
simultánea de conversaciones interpersonales.
La
clave del problema de la traducción del habla radica en conseguir un enfoque
adecuado para interpretar la incertidumbre y la ambigüedad en cada paso del
proceso. JANUS-II se diseñó para solventar este problema mediante la aplicación
de todo tipo de fuentes de información, desde la acústica hasta el discurso,
con lo que se reduce la búsqueda de la traducción óptima. A diferencia del
JANUS-I, que se basaba completamente en el análisis sintáctico, el JANUS-II
emplea casi exclusivamente el análisis semántico. Con ello se obtiene una
interpretación fundada del significado en lugar de reflejar distorsiones en la
expresión y registrar errores de reconocimiento del registro de entrada. Se
emplean varios enfoques donde se utilizan gramáticas semánticas y se elabora
una representación del significado independiente del lenguaje llamada interlingua.
Existen
tres ventajas principales en el enfoque de la interlingua. En primer lugar, lo que importa es el objetivo de la expresión del
output, sea cual sea la forma en que
se exprese. Así frases del tipo: «No
tengo tiempo el martes», «El martes está lleno», «Estoy de vacaciones el
martes» pueden catalogarse dentro de la misma interpretación: «No estoy disponible el martes» y se
puede generar una frase apropiada en la lengua output. Hasta las expresiones que dependen de la cultura pueden
traducirse de un modo culturalmente apropiado. La frase «El martes no me va bien» traducida como «Kayoobi-wa chotto tsugo-ga warui» literalmente sería: «En cuanto al martes, las circunstancias son
un poco adversas». La segunda ventaja es el sistema comparativo por el cual
se pueden añadir lenguajes adicionales, y el sistema de generación de output en cualquier lenguaje constituye
la tercera ventaja. Todo ello permite al usuario verificar si una expresión de input ha sido analizada correctamente y
esta propiedad tan importante mejora la utilidad de la traducción del habla, ya
que el usuario no suele saber si una traducción del input en un lenguaje desconocido es correcta o incorrecta.
Por supuesto, a lo largo de los años se han
estudiado ampliamente las representaciones semánticas en el proceso natural del
lenguaje, y se han llevado a cabo una serie de sistemas de traducción de textos
basados en la interlingua.7-9 Consideramos especialmente ventajoso
el empleo de un enfoque basado en la interlingua para la traducción del habla
espontánea, puesto que la lengua hablada no está tan bien formada
sintácticamente y es menos fiable, pero normalmente contiene mayor carga
semántica.
En el esfuerzo por potenciar el rendimiento
general del sistema trabajamos en las estrategias de fondo de habla y
traducción. En particular, teniendo en cuenta la necesidad de rearticular y
reorganizar nuestro dispositivo de reconocimiento para diferentes lenguas y
diferentes tareas, queremos automatizar muchos aspectos del diseño del sistema.
Con las siguientes estrategias se han conseguido recientes mejoras en los
resultados:10
• Adaptación
de códigos guiada por datos. Son métodos destinados a la optimización
automática del número de parámetros.
• Mejora
de los diccionarios. Debido a la variabilidad, las variaciones dialectales
y los fenómenos de coarticulación hallados en el habla espontánea, los
diccionarios de pronunciación deben ser modificados y especializados para cada
lengua. Para eliminar costosas intervenciones manuales y para un mejor diseño,
recurrimos a métodos guiados por datos para descubrir estas variantes.
• Modelos
lingüísticos de base morfológica. En el caso de las lenguas caracterizadas
por una morfología más rica, un mayor uso de inflexiones y mayor derivación que
en el inglés, en los diccionarios y modelos lingüísticos se usan unidades más
adecuadas en lugar de la «palabra».
• Modelos
de lenguaje basados en frases o familias de palabras. Las palabras que
pertenecen a familias de palabras (lunes,
martes, viernes...) o que aparecen con frecuencia (por ejemplo, estoy a punto de, vale la pena, nunca se
sabe) se descubren automáticamente mediante técnicas de sectorización y se
añaden a un diccionario como palabras especiales, frases o minigramáticas.
• Subvocabularios
especiales.11 En un segundo paso de clasificación se procesan
subvocabularios especiales susceptibles de confusión (por ejemplo, el deletreado
continuo de nombres y acrónimos) mediante modelos conexionistas.
Para evaluar el rendimiento y el progreso
relativo en el desarrollo de los traductores del habla se han ideado diversas
medidas de evaluación. Dicha evaluación se puede efectuar a tres niveles:
•
Índice de reconocimiento del habla:
medido, como es habitual, contando los errores de sustitución, eliminación e
inserción en una base de datos no conocida previamente.
•
Análisis semántico basado en las transcripciones: se puede medir si se ha establecido una referencia o representación en
la interlingua deseada. La desventaja de este enfoque es que es subjetivo y
requiere un trabajo manual considerable.
•
Precisión de la traducción del inicio al fin a
partir de 1) transcripciones y 2) input
del dispositivo de reconocimiento. Cada cláusula o fragmento conceptual (no
cada intervención) representa una unidad de evaluación para evitar la
consideración exagerada de algunas alocuciones cortas reafirmatorias (por
ejemplo, «Eso es», «vale»).
La necesidad de una interpretación del
lenguaje hablado surge en diferentes situaciones, cada una de las cuales
plantea diferentes desafíos y oportunidades. Hemos empezado a experimentar con
tres escenarios diferentes de aplicación: 1)
la interpretación del lenguaje hablado en el entorno de una conferencia de
vídeo interactiva, 2) un traductor
del habla portátil, 3) la traducción
simultánea de diálogos. El prototipo de estación de videoconferencia, con un
dispositivo de interpretación del lenguaje hablado, se realiza efectuando una
traducción a partir de la interlingua (independiente
del lenguaje) a la lengua del usuario. El usuario puede verificar si la
paráfrasis refleja el significado deseado del input emitido. Si es así, aprieta un botón de envío, que sustituye
la paráfrasis por la traducción en el lenguaje de salida (output) seleccionado y la envía al otro punto de videoconferencia.
En el segundo punto, la traducción aparece en subtítulos bajo la imagen de
vídeo transmitida por nuestro usuario. También se sintetiza en el lenguaje de
destino para la creación de un output
hablado. La pantalla de traducción también se puede usar en entornos de
colaboración virtual para poner en común pizarras virtuales o aplicaciones a
las que pueden hacer referencia los diferentes interlocutores. La traducción
puede llegarles en el doble del tiempo real y de este modo el sistema se puede
beneficiar del feedback obtenido del
usuario, que permite conseguir resultados correctos. También ofrece modos
alternativos de input del usuario y
de recuperación de errores. De este modo se puede conseguir una comunicación
efectiva a pesar de que los procesos de reconocimiento y de traducción sean
imperfectos. Además de ofrecer variados mecanismos de recuperación, la estación
de traducción también usa un estilo expresivo en cierto sentido más inteligible
que el habla usada en el discurso interpersonal.
El sistema JANUS-II también ofrece otras
formas sencillas de ayuda, como permitir simplemente que el usuario escriba con
el teclado correcciones a los errores de reconocimiento. El entorno ofrece aún
muchas más oportunidades de estudio de los factores humanos de la traducción
interactiva del habla. El mejor cociente entre velocidad de procesamiento y
precisión, el papel de las reparaciones y la multimodalidad en el proceso de
traducción, cómo tratar las expresiones que quedan fuera del dominio o cómo
aprender e integrar nuevas palabras o conceptos son temas en los que se va a
seguir investigando.
Nuestros resultados citados anteriormente en
referencia a los diálogos de intervenciones cruzadas y alternadas, no obstante,
sugieren que las limitaciones cognitivas que experimentan los traductores
humanos no son siempre aplicables a las máquinas: dos procesos separados de
traducción del habla pueden procesar fácilmente canales separados de un diálogo
y producir traducciones al ritmo de la conversación. En nuestro laboratorio se
ha instalado un traductor de diálogos que separa los turnos de intervención en
los mayores puntos de ruptura y envía las señales correspondientes de habla a
cinco procesadores que generan traducciones a un nivel cada vez mayor durante
el transcurso de una conversación entre personas (en este caso, una vez más,
dos sujetos acordando una reunión). A pesar de la naturaleza no fluida de una
conversación tan interactiva y rápida, se puede conseguir una traducción
precisa del diálogo hablado en este dominio durante más del 70 % del tiempo de
conversación.
1 Morimoto, T.; Takezawa, T.;
Yato, F.; Sagayama, S.; Tashiro, T.; Nagata, M.; Kurenmatsu, A.: «ATR’s Speech
Translation System: ASURA», EUROSPEECH 1993: 1295.
2 Roe, D.B.; Pereira, F.C.N.; Sproat, R.W.;
Riley, M.D.: «Efficient grammar processing for a spoken language translation
system», ICASSP, 1992; 1: 213.
3 Waibel, A.; Jain, A.M.; McNair, A.E.; Saito,
H.; Hauptmann, A.G.; Tebelskis, V.: «JANUS: a speech-to-speech translation
system using connectionist and symbolic processing strategies», ICASSP, 1991.
4 Hatazaki, K.; Noguchi, J.; Okumura, A.;
Yoshida, K.; Watanabe, T.: «INTERTALKER: an experimental automatic
interpretation system using conceptual representation», ICSLP, 1992.
5 Wahlster, W.: «First results of Verbmobil:
translation assistance for spontaneous dialogues» ATR International Workshop on
Speech Translation, November 8-9, 1993.
6 Vermobil:
http://www.dfki.uni-sb.de/verbmomil
7 McNair, A.E.; Waibel, A.: «Improving
recognizer acceptance through robots, natural speech repair», ICSLP, 1994; 3:
1299.
8 Hutchins, W.J.and H.Somers. «An Introduction
to Machine Translation, Acadamic Press, San Diego, 1992.
9 Hovy, EH.: «How MT Works» (Special Feature on
Machine Translation), Byte Magazine
1993; January: 167-176.
10 Suhm, B.; Geutner, P.; Kemp, T. et al.: «JANUS: towards multilingual
spoken language translation», Proceedings of the ARPA Spoken Language
Technology Workshop, Austin (Texas), Jaunary 1995.
11 Hild, H.; Waibel, A.: «Integrating spelling
into spoken dialogue recognition», EUROSPEECH 1997; 2.
Director de Interactive Systems Laboratories en la School of Computer Science - Carnegie Mellon University de Pittsburgh, Estados Unidos y University of Karlruhe, en Alemania. Entre los principales retos de investigación de este centro se encuentran el proyecto JANUS, un programa a gran escala creado para la traducción de lenguaje hablado, y el proyecto INTERAC cuyo objetivo es mejorar, a través de diversos procedimientos, la comunicación hombre-ordenador.