Crónica

 

Curso sobre Tecnologías de la lengua (tercera edición)

«¡Que viene la traducción automática!»

 

 

Language Technologies Course (third edition)

 

Marsal Gavaldà

 

 

El pasado mes de julio, el curso «Tecnologías de la lengua: traducción automática», que ya alcanza su tercera edición, convocó a eminentes científicos y profesionales nacionales e internacionales de la traducción automática. Este año, el curso se ha centrado en la arquitectura y el funcionamiento de los sistemas de traducción automática, con el objetivo de mostrar las aplicaciones que están teniendo mayor éxito, a la vez que analizar las dificultades más importantes.

 

 

Cada lengua representa una visión del mundo particular, una interpretación distinta de la realidad, la Weltanschauung propuesta por Von Humboldt a principios del siglo xix. La multilingualidad es el resultado de la diversidad cultural de la especie humana. No hay lengua alguna que clasifique el mundo de la misma manera: por ejemplo, el fragmento inglés a fish in a box tanto puede ser, en español, un pez en una caja como un pescado en una caja, y, en catalán, un peix en una capsa o un peix en una caixa. O resulta que en chino no existen las palabras hermano o hermana sino que hay ge (hermano mayor), di (hermano menor), jie (hermana mayor) y mei (hermana menor), y además se distingue entre women (nosotros, tú excluido) y zanmen (nosotros, tú incluido). O el caso del esloveno, en el que hay singular y plural, como en la mayoría de lenguas, y además se utiliza el número dual para colecciones de dos elementos (es decir, algo así como un pez, dos pece, tres peces). Es obvio que cada lengua informa a su manera de los aspectos del mundo y de las relaciones humanas, pero es evidente también que todas las lenguas tienen la misma capacidad de expresión, la misma complejidad teórica, mecanismo de composición, así como una sintaxis determinada. Esa naturaleza común de todas las lenguas humanas llevó, en la década de los ochenta, a Noam Chomsky a postular la existencia de una gramática universal, un modelo general del lenguaje humano, dentro del cual cada lengua es simplemente un caso particular de la gramática universal, la instanciación de unos valores concretos de los parámetros del modelo. En resumen, determinamos que cada lengua ve el mundo de una manera distinta, pero que esas diferencias son muy superficiales, lo que nos lleva a plantear la utilización de la traducción automática, partiendo de la idea que los ordenadores son máquinas de manipulación de símbolos a gran velocidad. La cuestión es que esa transformación de símbolos no puede ser arbitraria, sino que esencialmente debe «preservar el significado de las palabras». Traducir bien requiere comprender bien el original y hoy día no tenemos la capacidad para programar a los ordenadores para que comprendan el lenguaje humano.

Tal como se menciona en el editorial, los sistemas de traducción automática son cada vez mejores y más usados, aunque la tendencia de los que tienen más éxito es alejarse de intentar comprender el original y basarse en controlar la entrada o mantener grandes bancos de frases paralelas. Esto significa que el texto de entrada no puede ser un texto cualquiera sino que tiene que estar escrito en un lenguaje controlado, un subconjunto artificial de palabras y reglas que, por definición, impiden que el texto sea ambiguo. De esta manera el sistema de traducción puede codificar sin problemas el significado del texto en una representación lógica interna. (Alternativamente, en algunos sistemas la entrada no es un texto propiamente dicho sino ya directamente la representación lógica.)

Un ejemplo muy sencillo de forma lógica sería algo como:

 

lectura( diminutivo(PEDRO), LIBRO, AHORA)

 

para representar la frase:

 

Pedrito lee un libro.

 

Y a partir de la forma lógica, es relativamente simple generar la traducción correspondiente, por ejemplo, al inglés o al chino:

 

Little Pedro is reading a book

Xiao Pedro zai kan yi ben shu

 

Así es cómo funciona, por ejemplo, el sistema Kant desarrollado por la Universidad Carnegie Mellon (Estados Unidos) para traducir automáticamente los manuales de la multinacional de maquinaria industrial Caterpillar. La otra técnica se basa en grandes memorias de traducción y consiste en recordar frases (o fragmentos más cortos) en la lengua original X aparejados con su correspondiente traducción en la lengua Y. Pero las frases no son simplemente secuencias de palabras sino secuencias de clases de palabras, para generalizar la frase e incrementar así la probabilidad de su reutilización. (Por ejemplo, la frase mencionada anteriormente Pedrito lee un libro se podría almacenar, mínimamente generalizada, como $nombre_propio_de_persona lee un libro.) Estas memorias de traducción, aunque no sean muy sofisticadas, resultan efectivas, como lo demuestra una de sus aplicaciones más espectaculares: la traducción al catalán que cada día se realiza automáticamente (con un mínimo de postedición humana) de la versión española de El Periódico.

Para profundizar sobre todos estos aspectos, el Centro Ernest Lluch de la Universidad Internacional Menéndez Pelayo organizó del 15 al 19 de julio en el Centro de Cultura Contemporánea de Barcelona, un curso sobre traducción automática impartido por un grupo de expertos investigadores de muy alta calidad: Jaime Carbonell, director del Instituto de Tecnologías de la Lengua de la Universidad Carnegie Mellon (Estados Unidos); Arturo Trujillo, investigador de la empresa Vocalis (Reino Unido); Sergei Nirenburg, director del Laboratorio de Investigación Computacional de la Universidad Estatal de Nuevo México (Estados Unidos); John Hutchins, profesor de la Universidad de la Anglia del Este (Reino Unido), y Alex Waibel, director de los Laboratorios de Sistemas Interactivos de la Universidad Carnegie Mellon (Estados Unidos) y de la Universidad de Karlsruhe (Alemania).

Tras la inauguración oficial que tuvo lugar el día 15 de julio y que estuvo a cargo de Joan Trullén, director académico del Consorcio UIMP Barcelona – Centro Ernest Lluch, Jaime Carbonell habló de la historia y paradigmas de la traducción automática, a saber: traducción directa, traducción por reglas de transferencia, y traducción por interlingua, y mencionó también la incorporación reciente del modelaje estadístico en todos estos paradigmas de traducción.

Grosso modo, la traducción directa es la sustitución incondicional de las palabras de una lengua a otra; por ejemplo:

 

Xiao Pedro zai kan yi ben shu

 

se transforma en:

 

Pequeño/pequeña/pequeños/pequeñas Pedro estar leer un/uno/una/unos/unas tomo/tomos libro/libros

 

La traducción por transferencia de reglas es un poco más complicada, ya que primero extrae la estructura sintáctica de la lengua de entrada y después la transforma para la lengua de salida. Pero los resultados son más comprensibles, por ejemplo:

 

Oración( SintagmaNominal( (Adjetivo( Xiao)) (Nombre( Pedro))) (SintagmaVerbal (Verbo( zai kan)) (ObjetoDirecto (Num( yi)) (Medida (ben)) (Nombre( shu))))) se transforma en Oración( SintagmaNominal( (Nombre (diminutivo( Pedro)))) (SintagmaVerbal (Verbo( estar leyendo)) (ObjetoDirecto (Num( un)) Æ (Nombre( libro))))).

 

Finalmente la traducción por interlingua analiza las oraciones y las representa en una forma lógica, por ejemplo:

 

lectura( diminutivo( PEDRO), LIBRO, AHORA)

 

La arquitectura de los sistemas de traducción automática fue el tema tratado por Arturo Trujillo, quien destacó en su intervención la importancia de mantener el formato original (tipos de letra, paginación, hipervínculos, etc.), al realizar traducción automática de documentos, y los beneficios del código Unicode que, al asignar 16 bits por carácter, permite codificar 216 = 65 536 caracteres, suficientes para representar todos los alfabetos más utilizados de la Tierra (latino, griego, cirílico, arábigo, hebreo, chino-japonés-coreano, devanagari, tailandés, etc.).

Sergei Nirenburg presentó dos proyectos recientes: Mikrokosmos y Expedition. Mikrokosmos constituye un intento de construir una interlingua de gran alcance para conseguir una traducción automática de alta calidad. Expedition es un proyecto para la rápida adquisición de los parámetros gramaticales de lenguas de «baja densidad» es decir, aquéllas con muy poca presencia en Internet. A través de Expedition, hablantes no expertos son guiados para informar sobre la morfología, sintaxis, etc., de su lengua, a partir de lo cual el sistema es capaz de generar automáticamente léxicos y gramáticas computacionales.

John Hutchins resaltó las aplicaciones de la traducción automática en la práctica e hizo hincapié en las dos necesidades fundamentales que llevan a la traducción: traducción para asimilación y traducción para diseminación. La traducción para asimilación se refiere a la colección de datos textuales de muchos tipos, tales como libros, artículos en prensa, transcripciones de conversaciones telefónicas o de programas radiofónicos, entre otros, que son traducidos y sintetizados a la búsqueda de información sobre un tema determinado; es lo que acostumbran a realizar las agencias de inteligencia (CIA estadounidense, MI5 británico, Mossad israelí, etc.). En este caso, el sistema de traducción debe ser rápido aunque el resultado sólo sea mínimamente comprensible. La traducción para diseminación, en cambio, parte de un texto único y claro, y lo traduce a muchas lenguas para su publicación en dichas lenguas. Un ejemplo típico es la traducción de manuales, y en este caso el sistema de traducción puede ser menos eficaz, pero de alta calidad.

Finalmente, el viernes 19 de julio Alex Waibel intervino en el curso. Su ponencia trató del futuro de la traducción automática integrada con el reconocimiento y la síntesis de voz. Un futuro cuyas bases se asientan en que las tecnologías de la lengua se están erigiendo como puente entre lenguas, cuestión que será ampliamente analizada durante el Forum Universal de las Culturas – Barcelona 2004.

 

 

Þ Si el lector está interesado en profundizar en el tema, la mayoría de las presentaciones se pueden descargar en formato PDF en la dirección: http://www.cuimpb.es/cursos/2002/tecnollengua.htm.

 

 

 

 

Marsal Gavaldà

 

Director del equipo de Soluciones Avanzadas de Voz de la Dictaphone Corporation, profesor adjunto de la Universitat Pompeu Fabra y director del curso sobre tecnologías de la lengua que cada verano organiza el Centro Ernest Lluch de la Universidad Internacional Menéndez Pelayo.

 

Marsal.Gavalda@dictaphone.com