Sistemas de traducción automática
Automatic
translation systems
J. Gabriel Amores
En este
artículo se abordan, de manera muy sucinta y general, algunas cuestiones
relativas a los sistemas de traducción automática que han sido diseñados para
traducir textos de una lengua a otra. En concreto, se describen características
relativas al tipo de lenguaje en el que están escritos los textos, el grado de
automatización que es posible en los sistemas de traducción automática y la
integración y evaluación de los mismos en un entorno de trabajo.
This
article provides a brief and general view to some of the issues involved in
automatic translation designed to translate texts from one language into
another. Specifically, the article describes characteristics in relation to
language types used in texts, the degree of automatization these automatic
translation systems provide for and the integration and assessment of automatic
translation systems in work environments.
Con respecto a las características de los
sistemas de traducción automática, independientemente del enfoque que se
utilice (directo, transferencia o interlingua, por citar los más conocidos), se
puede hacer una clasificación de los sistemas de traducción automática en
función del tipo de texto o dominio para el que fueron diseñados.
Es muy conocido que el principal problema de
la traducción automática no es de naturaleza informática sino lingüística. El
lenguaje es masivamente ambiguo para un programa informático que trata de
modelizar el léxico y gramática de una lengua, ya que tendrá en cuenta
posibilidades de combinación sintáctica, y por tanto semántica, que a un
hablante de dicha lengua no se le habrían planteado.
Para solucionar este problema se han adoptado
numerosos enfoques, encaminados a restringir de algún modo o bien la sintaxis o
bien el dominio semántico en que se escriben los textos. Alternativamente, se
puede conseguir mayor flexibilidad mediante una selección previa del glosario que se ha de activar como
preferente, en función del dominio al que pertenezca el texto, sin tener por
ello que restringir su sintaxis. En los siguientes apartados nos ocuparemos de
estas cuestiones.
Lenguaje
controlado. Es aquel que fue producido teniendo en cuenta ciertas
restricciones en cuanto a gramática, estilo y vocabulario. El objetivo de los
lenguajes controlados es mejorar la coherencia, legibilidad, traducibilidad y
recuperación de información en documentos de carácter técnico. En la actualidad
hay cientos de empresas en todo el mundo que hacen uso de lenguajes controlados
como medio para mejorar la legibilidad o facilitar la traducción de esos textos
a otras lenguas.
El asunto no es trivial, ya que habitualmente
las grandes empresas exportan sus productos a numerosos países y tienen que
asegurarse que los manuales de mantenimiento serán entendidos adecuadamente por
el personal técnico de cada país. Una traducción inadecuada puede llevar a
desastres económicos, pero también humanos si se trata de instrumental médico,
por ejemplo.
Uno de los primeros proyectos fue el Caterpillar Fundamental English en los
años setenta, del cual se ha lanzado recientemente otra versión, el Caterpillar Technical English, que
difiere sustancialmente del anterior, tanto en extensión como objetivos, ya que
se propone facilitar la traducción de la documentación a otras 13 lenguas, ya
sea por medio de sistemas de traducción automática o traductores profesionales.
Actualmente, uno de los ejemplos más interesantes es el AECMA Simplified English (AECMA, 1995), un estándar de lenguaje
controlado que ha sido adoptado por toda la industria aerospacial para
facilitar el uso de los manuales de mantenimiento a los hablantes no nativos de
inglés. Otro ejemplo de lenguaje controlado es el desarrollado por la empresa
Perkins (Perkins
Approved Clear English, PACE).
Sublenguajes. Es aquel
que se utiliza en un dominio o tipo de texto concreto, pero que surge de forma
espontánea y no por restricciones impuestas, como en el caso de los lenguajes
controlados. La ventaja que proporcionan los sublenguajes es similar a la de
los lenguajes controlados, ya que tanto el vocabulario como la sintaxis son más
reducidos que en los textos de propósito general. Con ello conseguimos reducir
la complejidad del sistema de traducción automática y, por tanto, el problema
de la traducción a unos límites manejables.
El mejor ejemplo del uso de los sublenguajes
en traducción automática sigue siendo el sistema
Météo (Grimalia
y Chandioux, 1992), que lleva traduciendo boletines meteorológicos del inglés
al francés para la Oficina Canadiense de Meteorología desde hace más de dos
décadas.
El
problema habitual del enfoque basado en sublenguajes es que difícilmente se
encuentra un sublenguaje tan bien caracterizado como el de los partes
meteorológicos. Por el contrario, la mayoría de los textos pertenecientes a un
dominio suelen contener lenguaje figurado, vocabulario perteneciente a
distintos dominios, etc. Quizá por esta razón se ha abandonado en gran medida
este enfoque frente al desarrollo que están experimentando los lenguajes
controlados.
Lenguaje
especializado o de dominio general. Como hemos visto, tanto
los lenguajes controlados como los sublenguajes simplifican enormemente el
problema general de la traducción automática y lo asemejan a la práctica real
en traducción, ya que la mayoría de los traductores profesionales se
especializan en determinadas áreas: medicina, economía, aeronáutica, etc.
Asimismo, los lenguajes controlados y
sublenguajes parecen ser la solución óptima para muchas empresas con un gran
volumen interno de producción de documentación técnica que ha de ser traducida
a otras lenguas en un período muy breve.
Sin embargo, desde el punto de vista del
diseño de sistemas de traducción automática, tanto el enfoque de sublenguajes
como el de lenguajes controlados suponen una gran limitación. Dichos sistemas
son difícilmente reutilizables para otros dominios, donde la sintaxis y el
vocabulario difieren de aquél para el que se diseñó originalmente el sistema.
Como alternativa a este problema, la mayoría
de los sistemas de traducción automática comerciales suelen optar por diseñar
un sistema de carácter general, sin pensar en ninguna aplicación concreta, y
después ofrecer, por una cantidad adicional, glosarios especializados según las
necesidades del cliente. En el momento de la traducción, se ofrece al usuario
la posibilidad de jerarquizar u ordenar la secuencia en la que el sistema ha de
buscar las palabras en los diccionarios, para así dar prioridad a los glosarios
especializados sobre el diccionario de carácter general.
De manera similar, se puede indicar al
principio del proceso de traducción a qué dominio pertenece el texto que se va
a traducir, para que el sistema elija por sí mismo los glosarios apropiados.
Como alternativa a esta indicación «manual» del dominio al que pertenece el
texto, sería posible también que el programa de traducción incluyera un
algoritmo que resuelva la ambigüedad semántica que presenten las palabras del
texto (Ide y Véronis, 1998). Este enfoque es el más prometedor, ya que puede
adaptarse al posible cambio de dominio que se produce dentro del texto en
función de su contexto más inmediato, sin tomar una decisión a priori para todo el texto como hacen
los enfoques anteriores.
Sistemas de traducción automática
con ayuda del traductor frente a sistemas de traducción con ayuda del
ordenador. Independientemente del tipo de texto que se vaya a
traducir, el traductor cuenta con una amplia gama de productos para llevar a
cabo su trabajo. Son productos que se encuentran en algún lugar entre los casos
extremos del traductor profesional que no hace uso alguno de ordenadores para
su trabajo y el programa informático que realiza todo tipo de traducciones de
manera totalmente automática.
Habitualmente se hacen dos distinciones,
dependiendo del grado de automatización del proceso de traducción y también de
si el control del proceso de traducción lo lleva el traductor o el programa
informático. En el primer caso se habla de traducción
humana con ayuda del ordenador y en el segundo, de traducción automática con ayuda del traductor. En el primer caso,
el traductor profesional controla el proceso y hace uso de distintos programas
informáticos o bases de datos informatizadas según las va necesitando. Las
herramientas pueden afectar a todo el proceso de traducción. Por ejemplo, en la
recepción, preparación y entrega de los documentos: recepción y entrega por
correo electrónico, escaneo y formateo de los documentos finales, etc. Durante
el proceso de traducción se pueden utilizar un procesador de textos,
diccionarios y glosarios terminológicos accesibles en Internet o en CD,
memorias de traducción, corrector ortográfico, etc. En el segundo, el programa
informático realiza la traducción y el traductor profesional puede intervenir
antes (preedición), durante (sistemas interactivos) o posteriormente
(postedición) para asegurar o mejorar la calidad del producto final. La
preedición consiste en adelantarse a
los posibles fallos que puede cometer el sistema y facilitarle el trabajo
retocando el texto de entrada; por ejemplo, marcar apellidos como ‘Casado’ para
que no sean traducidos. Hoy en día son muy pocos los sistemas que precisan este
tipo de retoques, aunque bien es cierto que un gran porcentaje de los errores
que cometen los sistemas de traducción automática provienen de un texto de
entrada mal escrito en cuanto a su estilo, faltas de ortografía, mal uso de la
puntuación, etc. La postedición y corrección del texto de salida una vez
concluido el proceso de traducción por parte del sistema es inevitable. Sin
embargo, ésta varía sustancialmente dependiendo del uso que se vaya a dar a la
traducción. Así, por ejemplo, si solamente se buscaba una traducción de la
terminología relevante para obtención de información y no para publicación del
texto traducido, la postedición puede llegar a ser mínima. Actualmente muchos
sistemas de traducción automática incluyen macros para facilitar la tarea del
posteditor; por ejemplo, cambiar la palabra en femenino, ponerla en plural,
eliminar el artículo definido, añadir un acento, etc. La necesidad de la
postedición ha sido una de las críticas que más se han utilizado en contra de
la traducción automática. Sin embargo, no se suele tener en cuenta que en
gabinetes o departamentos de traducción se suelen revisar todas las
traducciones, incluidas las realizadas por traductores profesionales.
En los sistemas interactivos el programa
informático se detiene y consulta al traductor cada vez que detecta una
ambigüedad, léxica o estructural, que él mismo no puede resolver. Se presentan
las alternativas para que el traductor elija y posteriormente continúa el
proceso. Estos sistemas han tenido poco éxito por razones obvias. El traductor
ha de estar presente durante el proceso, esperando a que el sistema le consulte;
el sistema no ‘aprende’ de consultas anteriores y vuelve a preguntar ante una
situación similar; no se asegura que el producto final sea totalmente correcto,
ya que no se puede asegurar que donde no preguntó obtuvo la traducción
adecuada.
Como alternativa a este tipo de escenario, y
en relación a los lenguajes controlados, están desarrollándose en la actualidad
sistemas de producción multilingüe de documentos. Estos sistemas interactúan
con el usuario en la confección de un documento final (Hartley y Paris, 1997).
Integración en un entorno de trabajo
Inevitablemente, a pesar de describir con
cierto detalle la complejidad de los sistemas de traducción automática y los
distintos enfoques y posibilidades que se pueden ofrecer, surge la pregunta:
¿cuál es el mejor sistema?
Ante esta pregunta, sólo cabe responder que
el mejor sistema es el que resuelve satisfactoriamente las necesidades del
usuario. Éstas conforman el entorno de traducción o de trabajo en el que se
deberá integrar el sistema de traducción automática, que puede variar bastante
entre un gabinete de traducción a una empresa con gran volumen de traducción
interno, un traductor autónomo, una institución internacional, una pequeña
empresa con intención de expandirse en el mercado internacional etc.
Asimismo, desarrollar un sistema de
traducción automática conlleva mucho esfuerzo y recursos. De cualquier modo, es
necesario un período de adaptación del sistema al entorno de producción en el
que se pretende utilizar: compatibilidad de procesadores de texto y bases de
datos, requisitos informáticos, sistemas operativos, etc.
Por tanto, antes de decidirnos por un sistema
debemos evaluar diversos factores, algunos de los cuales trataré de describir a
continuación:
Cuestiones
relevantes en la evaluación
A grandes rasgos, un sistema de traducción
automática se puede evaluar desde tres puntos de vista: Evaluación lingüística
por parte del usuario, evaluación por parte del diseñador del sistema y
evaluación de costes y beneficios (Lehrberger y Bourbeau, 1988). La evaluación
lingüística por parte del usuario se divide a su vez en tres grandes áreas:
determinar el tipo de textos que se van a traducir, donde es necesario conocer el
dominio al que pertenecen los textos y saber si existen glosarios o diccionarios
especializados sobre la materia, o si el dominio exige una especialización muy
fuerte por parte de los traductores. La segunda gran área es determinar el volumen de textos que se han de traducir en términos de
palabras/año. Y en tercer lugar se deben establecer las características
lingüísticas de los textos teniendo en cuenta, al menos, los siguientes
factores: tamaño del vocabulario en el dominio, nivel de homonimia que
presentan los textos, sintaxis y tipo de estructura más frecuentes para atender
a aquellos fenómenos que suelen presentar problemas para los sistemas de
traducción automática; como por ejemplo, coordinación, elipsis, listas,
compuestos, extraposiciones, etc.
Cuando se realiza la evaluación del
componente lingüístico se deben incluir los siguientes pasos: construir
oraciones de prueba y traducirlas, seleccionar un texto típico y traducirlo,
clasificar e interpretar los resultados, formular hipótesis sobre las
limitaciones y, por último, confirmar con otros textos. Además habrá que tener en
cuenta los siguientes aspectos: número de entradas que tiene el diccionario,
posibilidad de modificarlas, caracteres disponibles (ñ, ó, ...), longitud
máxima de una palabra en el diccionario, número de textos que se pueden
procesar de una vez, requisitos de memoria y configuración del hardware, integración con herramientas
disponibles en el entorno habitual, lenguaje de programación utilizado y
estrategia de análisis que se sigue (directo/transferencia/interlingua).
En la evaluación por parte del diseñador, una
vez identificados los posibles errores y limitaciones del sistema, él es el
único que puede solucionarlos satisfactoriamente. Él es quien tiene acceso
completo al sistema y quien puede clasificar los errores por su causa para
determinar el esfuerzo requerido para solucionarlos. Habitualmente se
acometerán primero aquellos que tendrán una mayor incidencia en la calidad de
la traducción debido a su frecuencia relativa o absoluta en los textos
propuestos por el usuario.
En la evaluación de costes y beneficios, el
usuario habrá de calcular los costes directos e indirectos derivados y comparar
los beneficios que le aportará el sistema con relación a la traducción
encargada a un profesional en las condiciones habituales que lo viniera
haciendo. Entre otros, habrán de evaluarse los siguientes aspectos: coste de revisión de la
primera traducción, costes de personal, tiempo que se invierte en todo el
proceso de traducción, coste de mantenimiento de los diccionarios, incremento
de productividad, decremento de costes, período de amortización, apoyo de los
diseñadores y posibilidad de contar con futuras versiones, calidad de la
traducción en bruto; es decir oraciones que no necesitan revisión, oraciones
que necesitan poca revisión y oraciones que han de ser totalmente revisadas.
Conclusión
En este artículo hemos descrito de forma muy
sucinta algunas cuestiones relativas a los sistemas de traducción automática
tomados como sistemas completos y a su integración en un entorno de trabajo.
Como conclusión se puede apuntar que actualmente hay una gran variedad de
herramientas que pueden automatizar en mayor o menor medida el proceso de
traducción. Sin embargo, serán las necesidades últimas del usuario las que
determinen qué herramienta es la más apropiada teniendo en cuenta no solamente
cuestiones de calidad, sino de complejidad técnica y evaluación de los costes y
beneficios asociados.
Bibliografía
AECMA: AECMA
Simplified English: A Guide for the Preparation of Aircraft Maintenance
Documentation in the International Aerosace Maintenance Language,
Bruselas, 1995.
Grimaila, A.; Chandioux, J.: «Made
to measure solutions». En: John Newton, ed.: Computers in Translation: A Practical Appraisal, Londres,
Routledge, 1992: 33-45.
Hartley, A.F.; Paris, C.L.: «Multi-lingual document production: from support for
translating to support for authoring» , Machine Translation (Special Issue on new tools for human
translators) 1997; 12 (12): 109-129.
Ide, I; Véronis, J.: «Introduction to the
Special Issue on Word Sense Disambiguation: The State of the Art», Computational
Linguistics 1998; 24 (1): 1-40.
Lehrberger, L.; Bourbeau, L.: Machine Translation: Linguistic
Characteristics of MT Systems and General Methodology of Evaluation,
Amsterdam/Filadelfia, John Benjamins, 1988.
José Gabriel Amores
Carredano
Profesor
titular en el Departamento de Lengua Inglesa de la Universidad de Sevilla. En
1990 obtuvo el grado de Masters en Machine Translation por UMIST, Reino Unido,
y posteriormente trabajó durante dos años en el Departamento de Traducción
Automática de la Organización Panamericana de la Salud, en Washington DC, en el
desarrollo de los sistemas ENGSPAN y SPANAM. Actualmente es investigador
principal del grupo de investigación en Procesamiento del Lenguaje Natural Julietta, que cuenta con contratos y
proyectos de investigación nacionales y europeos. Ha publicado numerosos
artículos sobre traducción automática y es coautor (junto con el Dr. José
Francisco Quesada) de la obra Diseño e
implementación de sistemas de traducción automática, publicada por el
Servicio de Publicaciones de la Universidad de Sevilla en el año 2000.