|
Crónica
Curso sobre Tecnologías de la lengua (tercera
edición)
«¡Que
viene la traducción automática!»
Language Technologies Course (third
edition)
Marsal Gavaldà
El pasado mes de julio, el curso «Tecnologías de
la lengua: traducción automática», que ya alcanza su
tercera edición, convocó a eminentes científicos y profesionales nacionales e
internacionales de la traducción automática. Este año, el curso se ha centrado
en la arquitectura y el funcionamiento de los sistemas de traducción
automática, con el objetivo de mostrar las aplicaciones que están teniendo
mayor éxito, a la vez que analizar las dificultades más importantes. Cada lengua representa una visión del mundo
particular, una interpretación distinta de la realidad, la Weltanschauung propuesta por Von Humboldt a principios del siglo xix. La multilingualidad es el resultado
de la diversidad cultural de la especie humana. No hay lengua alguna que
clasifique el mundo de la misma manera: por ejemplo, el fragmento inglés a fish in a box tanto puede ser, en
español, un pez en una caja como un pescado en una caja, y, en catalán, un peix en una capsa o un peix en una caixa. O resulta que en
chino no existen las palabras hermano
o hermana sino que hay ge (hermano mayor), di (hermano menor), jie
(hermana mayor) y mei (hermana
menor), y además se distingue entre women
(nosotros, tú excluido) y zanmen
(nosotros, tú incluido). O el caso del esloveno, en el que hay singular y
plural, como en la mayoría de lenguas, y además se utiliza el número dual para
colecciones de dos elementos (es decir, algo así como un pez, dos pece, tres peces). Es obvio que cada lengua informa
a su manera de los aspectos del mundo y de las relaciones humanas, pero es
evidente también que todas las lenguas tienen la misma capacidad de expresión,
la misma complejidad teórica, mecanismo de composición, así como una sintaxis
determinada. Esa naturaleza común de todas las lenguas humanas llevó, en la
década de los ochenta, a Noam Chomsky a postular la existencia de una gramática
universal, un modelo general del lenguaje humano, dentro del cual cada lengua
es simplemente un caso particular de la gramática universal, la instanciación
de unos valores concretos de los parámetros del modelo. En resumen,
determinamos que cada lengua ve el mundo de una manera distinta, pero que esas
diferencias son muy superficiales, lo que nos lleva a plantear la
utilización de la traducción automática, partiendo de la idea que los
ordenadores son máquinas de manipulación de símbolos a gran velocidad. La
cuestión es que esa transformación de símbolos no puede ser arbitraria, sino
que esencialmente debe «preservar el significado de las palabras». Traducir
bien requiere comprender bien el original y hoy día no tenemos la capacidad
para programar a los ordenadores para que comprendan el lenguaje humano. Tal como se menciona en el editorial, los sistemas
de traducción automática son cada vez mejores y más usados, aunque la tendencia
de los que tienen más éxito es alejarse de intentar comprender el original y
basarse en controlar la entrada o mantener grandes bancos de frases paralelas.
Esto significa que el texto de entrada no puede ser un texto cualquiera sino
que tiene que estar escrito en un lenguaje controlado, un subconjunto
artificial de palabras y reglas que, por definición, impiden que el texto sea
ambiguo. De esta manera el sistema de traducción puede codificar sin problemas
el significado del texto en una representación lógica interna.
(Alternativamente, en algunos sistemas la entrada no es un texto propiamente
dicho sino ya directamente la representación lógica.) Un ejemplo muy sencillo de forma lógica sería algo
como: lectura( diminutivo(PEDRO), LIBRO, AHORA) para representar la frase:
Pedrito
lee un libro. Y a partir de la forma lógica, es relativamente
simple generar la traducción correspondiente, por ejemplo, al inglés o al chino:
Little Pedro is reading a book
Xiao
Pedro zai kan yi ben shu Así es cómo funciona, por ejemplo, el sistema Kant
desarrollado por la Universidad Carnegie Mellon (Estados Unidos) para traducir
automáticamente los manuales de la multinacional de maquinaria industrial
Caterpillar. La otra técnica se basa en grandes memorias de traducción y
consiste en recordar frases (o fragmentos más cortos) en la lengua original X
aparejados con su correspondiente traducción en la lengua Y. Pero las
frases no son simplemente secuencias de palabras sino secuencias de clases de
palabras, para generalizar la frase e incrementar así la probabilidad de su
reutilización. (Por ejemplo, la frase mencionada anteriormente Pedrito lee un libro se podría
almacenar, mínimamente generalizada, como $nombre_propio_de_persona
lee un libro.) Estas memorias de traducción, aunque no sean muy
sofisticadas, resultan efectivas, como lo demuestra una de sus aplicaciones más
espectaculares: la traducción al catalán que cada día se realiza automáticamente
(con un mínimo de postedición humana) de la versión española de El Periódico. Para profundizar sobre todos estos aspectos, el
Centro Ernest Lluch de la Universidad Internacional Menéndez Pelayo organizó
del 15 al 19 de julio en el Centro de Cultura Contemporánea de Barcelona, un
curso sobre traducción automática impartido por un grupo de expertos
investigadores de muy alta calidad: Jaime Carbonell, director del Instituto de
Tecnologías de la Lengua de la Universidad Carnegie Mellon (Estados Unidos);
Arturo Trujillo, investigador de la empresa Vocalis
(Reino Unido); Sergei Nirenburg, director del Laboratorio de
Investigación Computacional de la Universidad Estatal de Nuevo México (Estados
Unidos); John Hutchins, profesor de la Universidad de la Anglia del Este (Reino
Unido), y Alex Waibel, director de los Laboratorios de Sistemas Interactivos de
la Universidad Carnegie Mellon (Estados Unidos) y de la Universidad de
Karlsruhe (Alemania). Tras la inauguración oficial que tuvo lugar el día 15 de julio y que estuvo
a cargo de Joan Trullén, director académico del Consorcio UIMP Barcelona –
Centro Ernest Lluch, Jaime Carbonell habló de la historia y paradigmas de la
traducción automática, a saber: traducción directa, traducción por reglas de
transferencia, y traducción por interlingua, y mencionó también la
incorporación reciente del modelaje estadístico en todos estos paradigmas de
traducción. Grosso modo, la traducción directa es la sustitución
incondicional de las palabras de una lengua a otra; por ejemplo: Xiao Pedro zai kan yi ben shu se transforma en: Pequeño/pequeña/pequeños/pequeñas
Pedro estar leer un/uno/una/unos/unas tomo/tomos libro/libros La traducción por transferencia de reglas es un poco más complicada,
ya que primero extrae la estructura sintáctica de la lengua de entrada y
después la transforma para la lengua de salida. Pero los resultados son más
comprensibles, por ejemplo: Oración( SintagmaNominal( (Adjetivo( Xiao))
(Nombre( Pedro))) (SintagmaVerbal (Verbo( zai kan)) (ObjetoDirecto (Num( yi)) (Medida (ben)) (Nombre( shu)))))
se transforma en Oración( SintagmaNominal( (Nombre (diminutivo( Pedro)))) (SintagmaVerbal (Verbo( estar leyendo)) (ObjetoDirecto (Num( un))
Æ (Nombre( libro))))). Finalmente la traducción por interlingua analiza las oraciones y las
representa en una forma lógica, por ejemplo: lectura( diminutivo( PEDRO), LIBRO, AHORA) La arquitectura de los sistemas de traducción automática fue el tema
tratado por Arturo Trujillo, quien destacó en su intervención la importancia de
mantener el formato original (tipos de letra, paginación, hipervínculos, etc.),
al realizar traducción automática de documentos, y los beneficios del código
Unicode que, al asignar 16 bits por carácter, permite codificar 216
= 65 536 caracteres, suficientes para representar todos los alfabetos más
utilizados de la Tierra (latino, griego, cirílico, arábigo, hebreo,
chino-japonés-coreano, devanagari, tailandés, etc.). Sergei Nirenburg presentó dos proyectos recientes: Mikrokosmos y Expedition.
Mikrokosmos constituye un intento de construir una interlingua de gran
alcance para conseguir una traducción automática de alta calidad. Expedition
es un proyecto para la rápida adquisición de los parámetros gramaticales de
lenguas de «baja densidad» es decir, aquéllas con muy poca presencia en
Internet. A través de Expedition, hablantes no expertos son guiados para
informar sobre la morfología, sintaxis, etc., de su lengua, a partir de lo cual
el sistema es capaz de generar automáticamente léxicos y gramáticas
computacionales. John Hutchins resaltó las aplicaciones de la traducción automática en la
práctica e hizo hincapié en las dos necesidades fundamentales que llevan a la
traducción: traducción para asimilación y traducción para diseminación. La traducción
para asimilación se refiere a la colección de datos textuales de muchos
tipos, tales como libros, artículos en prensa, transcripciones de
conversaciones telefónicas o de programas radiofónicos, entre otros, que son
traducidos y sintetizados a la búsqueda de información sobre un tema
determinado; es lo que acostumbran a realizar las agencias de inteligencia (CIA
estadounidense, MI5 británico, Mossad israelí, etc.). En este caso, el sistema
de traducción debe ser rápido aunque el resultado sólo sea mínimamente
comprensible. La traducción para diseminación, en cambio, parte de un
texto único y claro, y lo traduce a muchas lenguas para su publicación en
dichas lenguas. Un ejemplo típico es la traducción de manuales, y en este caso
el sistema de traducción puede ser menos eficaz, pero de alta calidad. Finalmente, el viernes 19 de julio Alex Waibel intervino en el curso. Su
ponencia trató del futuro de la traducción automática integrada con el
reconocimiento y la síntesis de voz. Un futuro cuyas bases se asientan en que
las tecnologías de la lengua se están erigiendo como puente entre lenguas,
cuestión que será ampliamente analizada durante el Forum Universal de las
Culturas – Barcelona 2004.
Þ Si el lector está interesado en profundizar en el
tema, la mayoría de las presentaciones se pueden descargar en formato PDF en la
dirección: http://www.cuimpb.es/cursos/2002/tecnollengua.htm. Marsal Gavaldà
Director del equipo de Soluciones
Avanzadas de Voz de la Dictaphone Corporation, profesor adjunto de la
Universitat Pompeu Fabra y director del curso sobre tecnologías de la lengua
que cada verano organiza el Centro Ernest Lluch de la Universidad Internacional
Menéndez Pelayo.
Marsal.Gavalda@dictaphone.com
|