Crónica

 

Las aplicaciones de las tecnologías del habla

 

Applications of speech technology

 

Mar Mediavilla

_______________________________________________________________________

Una exposición paralela a la segunda edición del curso sobre Tecnologías de la lengua mostró los trabajos que realizan diferentes empresas y equipos de investigación en este ámbito. Traducción asistida por ordenador, conversión texto-habla, bases de datos orales y textuales, traducción automática o proyectos en el campo de lingüística computacional fueron algunos de los temas que despertaron el interés del público hacia este novedoso campo.

______________________________________________________________________

 

En los sistemas de traducción automática se establecen los paradigmas lingüísticos y no lingüísticos. Estos últimos son aquellos que traducen palabra a palabra y utilizan técnicas estadísticas para correlacionar palabras en los idiomas de origen y destino y determinan la traducción más probable para las palabras o las secuencias de éstas. Dentro de ellos, algunos contienen una amplia base de datos de textos paralelos en los que se realiza una comparación entre la frase de entrada con las almacenadas en un sistema.

Los sistemas lingüísticos, que utilizan en su tarea un análisis profundo de términos, estructura de frases, rasgos semánticos y contexto gramatical, pueden clasificarse como interlingua o transfer. En interlingua, la entrada se transfiere a una representación artificial, que posteriormente es traducida al idioma de destino. Requieren de análisis semántico y representación abstracta de términos muy profundos, que supone un obstáculo para su utilización a gran escala. Los que emplean la técnica de transfer se basan en un módulo central de la traducción, un módulo de transferencia que transforma la entrada suministrada por un módulo de análisis y la entrega a un módulo de generación que proporciona frases gramaticalmente correctas en el módulo de destino.

La tecnología comprendium fue el motor de traducción expuesto por la empresa Sail Labs.1 Según sus promotores es un sistema basado en reglas lingüísticas que realiza un profundo análisis morfológico, gramatical y léxico del texto de entrada construyendo una salida según un modelo lingüístico. Es sensitivo al contexto, esto es, el significado de un término depende de su función sintáctica dentro de la frase, e incluye también un análisis semántico. Comprendium, basado en un modelo modificado de transfer, realiza la traducción en un proceso de tres fases: análisis, transferencia y generación. En la actualidad, este sistema está disponible, entre otros idiomas para inglés-francés o alemán-español, alemán-francés-español, francés-español, catalán-inglés y ruso-alemán-inglés.

Muchas veces se ha pensado que las máquinas podrían sustituir la tarea humana, pero sin duda antes está el paso previo en el que la máquina, o los servicios que a través de ella se ofrecen, se convierten en herramienta. Un ejemplo es el programa de traducción asistida por ordenador (TAO) denominado Déjà vu. Sus distribuidores, la empresa Ampersand,2 explican que se trata de algo más que un programa «de memorias de traducción», ya que es un entorno integrado de traducción asistida por ordenador que incluye en un mismo programa componentes de un editor de textos multiformato, una memoria de traducción, un gestor de terminología, un alineador de textos y utilidades complementarias con un importante soporte técnico. Este tipo de programas almacenan todas las traducciones que se realizan en una base de datos denominada memoria de traducción. Se trata de un sistema integrado de TAO, es decir, no sólo permite al traductor aprovechar sus traducciones anteriores, sino que además facilita el trabajo adicional vinculado al proceso de traducción. El programa formatea el texto, dando a la traducción la misma forma que el original, permite trabajar en red con acceso a bases de datos de varios usuarios que, al mismo tiempo, pueden enviar nueva información a la base de datos, junto con un programa de gestión de terminología.

Por último, dentro de este primer apartado, en la exposición se presentó un software destinado a humanizar la interacción con el usuario. La base de este software, desarrollado por la empresa Q-go,3 en colaboración con universidades y centros de investigación, es la tecnología de navegación por preguntas y respuestas basadas en el procesamiento del lenguaje natural. A quien navega por un sitio web ofrece la oportunidad de plantear preguntas modelo con enlaces directos a determinados contenidos. La tecnología lingüística se basa en la comparación entre la pregunta de quien visita la página con las preguntas modelo de la base de datos. Este software está disponible en alemán, holandés, español e inglés, y está trabajando con los modelos en francés, italiano, portugués y catalán. Esta empresa también desarrolla sistemas de recuperación de información en la WWW.

Automatic Trans,4 empresa integrada por especialistas en el lenguaje y la tecnología del conocimiento, presentó los traductores denominados Automatic Translation Server, que actualmente se comercializan para traducir del castellano al catalán y viceversa, además de castellano a portugués de Brasil y su próximo lanzamiento del traductor automático de inglés a castellano. Una de las principales virtudes de este producto es su capacidad de aprendizaje, ya que el sistema recoge las dudas y errores durante la traducción, y esa información segmentada y agrupada se presenta al responsable del sistema de traducción, quien se encargará de añadir entradas nuevas a cualquiera de los cuatro niveles existentes: palabras nuevas, excepciones, expresiones o frases hechas y reglas de traducción. Desde la empresa apuntan que con un mantenimiento regular, Automatic Translation Server puede alcanzar niveles del 99,99 % de calidad en la traducción automática, con un lenguaje normalizado en estilo correcto y con expresiones perfectamente construidas y de total compresión para el lector.

 

Investigación y desarrollo

 

En la exposición se presentaron también las principales líneas hacia las que se dirige la investigación en el campo de las tecnologías del habla. Por ejemplo, Telefónica I+D (TID),5 según explica Juan María Garrido, destaca entre sus ámbitos el reconocimiento de habla, la conversión texto-habla y el procesamiento del lenguaje natural. En el campo del reconocimiento del habla, la tecnología desarrollada por TID permite reconocer frases pronunciadas de forma continua, sin pausas entre las palabras, y con independencia del locutor que las pronuncie. Esta tecnología está integrada en el llamado Reconocedor de Lenguaje Natural. Frente a otros sistemas que sólo permiten el reconocimiento de palabras o enunciados cortos pronunciados aisladamente, el Reconocedor de Lenguaje Natural, comenta Garrido, permite el diálogo hombre-máquina de forma más natural y con menos restricciones. Además, incorpora procedimientos que permiten minimizar la influencia del ruido de fondo y de las diferencias debidas al canal (aparato telefónico empleado o red de transmisión). En el terreno de la conversión texto-habla, el Conversor Multilingüe de TID permite la lectura de textos con diferentes «locutores» (voces sintéticas) en distintos idiomas: español peninsular y de América, catalán, euskera, gallego, portugués europeo y portugués brasileño. La arquitectura del sistema permite emplear el Conversor a través de diferentes canales telefónicos, utilizando «locutores» distintos, incluso de idiomas diferentes de forma simultánea. La investigación actual en este campo se orienta hacia el desarrollo de nuevos «locutores» de forma cada vez más automatizada y rápida, la creación de «locutores» sintéticos que reproduzcan lo más fielmente posible las especificidades fónicas de los locutores humanos de referencia, y la corrección automática del texto de entrada del Conversor.

En un último apartado, el trabajo en procesamiento del lenguaje natural se centra, por un lado, en el desarrollo de modelos de lenguaje (gramáticas contextuales que definen las combinaciones posibles de palabras en una situación determinada), que se emplean como apoyo al Reconocedor y, por otro, en el desarrollo de analizadores semánticos que permitan la interpretación semántica de los enunciados reconocidos. Una tecnología suficientemente madura en estos tres campos ha permitido abordar el desarrollo de los denominados sistemas de diálogo capaces de reconocer la demanda de un usuario por medio de la voz, interpretar y generar una respuesta (fig.1).

Una de las aplicaciones con más proyección son los «portales de voz», sistemas que permiten acceder por medio de la voz, es decir a través del teléfono sin intervención de operador humano, a los contenidos y servicios disponibles en Internet. Éstos permitirán lectura de correo electrónico, accesos a prensa electrónica, directorios, bases de datos y comercio electrónico, entre otras funciones.

 

Representación universitaria

 

En la Unidad de Investigación en Lingüística Computacional (UILC), del Instituto Universitario de Lingüística Aplicada de la Universitat Pompeu Fabra (UPF, Barcelona),6 se desarrolla un sistema de procesamiento de texto no restringido para el catalán, con el fin de anotar textos de manera automática con información lingüística. Según explican desde la UILC, la información facilitará la explotación de los textos en tareas relacionadas con el campo de la Lingüística Computacional, en el sentido amplio del término: desde corrección gramatical hasta extracción y recuperación de información, pasando por traducción automática (fig. 2).

Según el diseño de la figura 2, la primera etapa por la que pasa el texto, en formato ANSI, es el preproceso, en el que se identifica cada palabra, oración y párrafo, se detectan unidades tales como nombres propios y fechas y se da al texto un formato adecuado para el siguiente paso: la proyección morfológica. Cada palabra del texto se etiqueta con todos los posibles lemas y categorías morfológicas que puede representar. Por ejemplo, tanto si se procesa la finestra és petita [la ventana es pequeña] como si se procesa me la menjaré [me la comeré], la recibirá etiqueta de artículo y de pronombre, que son las dos categorías que puede tener este vocablo. En la siguiente fase, la de desambiguación morfológica, se descartan las etiquetas inadecuadas en función del contexto lingüístico: en el primer ejemplo, se puede decidir que la es un artículo porque a continuación tiene un nombre (finestra), mientras que en el segundo ejemplo se puede decidir que es un pronombre porque a continuación tiene un verbo (menjaré). En un paso posterior, en la fase de proyección sintáctica se asignan las etiquetas sintácticas correspondientes a la función que cada palabra puede realizar, en función de dos variables: la categoría morfológica de la palabra (por ejemplo, los nombres pueden ser sujeto, pero los adverbios no), que se ha determinado en el paso previo, y el contexto lingüístico (finestra en el primer ejemplo no puede ser complemento directo, porque en la oración no hay ningún verbo transitivo). Mediante este mecanismo se asigna posiblemente más de una etiqueta a cada palabra, por lo que es necesario un último paso, el de desambiguación sintáctica (que funciona como el de desambiguación morfológica), para tener un texto completa y --en principio-- correctamente etiquetado.

El proceso descrito hasta aquí es completamente automático: no se corrige el texto manualmente en ningún momento del proceso. En cuanto a las herramientas que se utilizan, son básicamente dos: el lenguaje de programación Perl y el formalismo Constraint Grammar, desarrollado en la Universidad de Helsinki (escrito en C++). Perl se utiliza para el preproceso y la proyección morfológica. La proyección se hace a partir de un formario o tabla de formas con lemas y categorías morfológicas asociadas, que se actualiza periódicamente a partir de una herramienta llamada CATMORF, desarrollada por la propia UILC, cuyos datos léxicos fueron obtenidos de manera semiautomática a partir de diccionarios electrónicos. En cuanto al formalismo de la Constraint Grammar, se ha usado para la creación de tres gramáticas (ficheros de reglas), mediante las cuales se realizan las tareas de desambiguación morfológica y de proyección y desambiguación sintáctica respectivamente. En cuanto al estado del proyecto se prevé que una primera versión de todo el sistema esté operativa a finales de 2001.

Por otro lado, el Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) es un centro específico de investigación de la Universidad Politécnica de Calalunya (UPC) de ámbito interdepartamental.7 Está formado por los dos grupos de investigación de la UPC que trabajan en tecnologías del lenguaje, oral y escrito: el Grupo de Tratamiento del Habla del Departamento de Teoría de Señal y Comunicaciones8 y el Grupo de Tratamiento del Lenguaje Natural del Departamento de Lenguajes y Sistemas Informáticos.9

El TALP, como centro de I+D, fomenta la transferencia de conocimientos, experiencia y tecnología, en particular mediante la cooperación con instituciones públicas y empresas con proyectos de investigación aplicada y desarrollo. Actualmente, explican Climent Nadeu y Jaume Pedrell, dispone de toda una serie de recursos y productos propios básicamente en castellano y catalán. Entre otros, reconocimiento del habla, conversión de texto a voz, análisis morfológico, desambiguación, además de bases de datos orales y textuales, red léxico-conceptual Euro WordNet.

En la exposición paralela a los cursos celebrados en la UIMP de Barcelona se presentaron diversos productos y herramientas del TALP. Entre éstos, había programas de demostración de reconocimiento del habla y de conversión de texto a voz y demostraciones del uso de las herramientas de procesado natural del lenguaje que utilizan como fuente de información la red Euro WordNet en castellano y catalán. Las demostraciones de reconocimiento permitían al visitante escribir una lista de palabras que inmediatamente podía empezar a pronunciar para que fueran reconocidas por el sistema y mostradas por pantalla, sin ninguna sesión previa de adiestramiento. Este sistema presenta una alta tasa de acierto, afirman Nadeu y Pedrell, entre el 80 % y el 97 % de las palabras de la lista confeccionada por el usuario e indica si la palabra no está en la lista, siendo útil en aplicaciones donde se requiere el control de un ordenador o un aparato mediante órdenes orales.

En una segunda representación se mostraba la tecnología desarrollada en el Centro TALP para realizar reconocimiento del habla en un entorno de diálogo persona-máquina. En éstos casos se espera que el ordenador sea capaz de reconocer frases enteras, donde el usuario puede utilizar las palabras del vocabulario en diferentes combinaciones. En concreto, la demostración consistió en el sistema de reconocimiento desarrollado para suministrar información sobre trenes, donde el sistema es capaz de transcribir al texto preguntas orales del usuario y donde un solo ordenador puede atender a decenas de clientes simultáneamente.

La demostración de la tecnología de conversión de texto a voz consistía en un programa que lee cualquier texto tecleado en el ordenador por el visitante, bien en castellano o catalán. Una demostración que también puede realizarse a través de la página web del Centro TALP. Este tipo de producto, además de complementar los sistemas de reconocimiento en las aplicaciones telefónicas, tiene una aplicación inmediata para personas invidentes o con discapacidades orales.

Por último, de entre las herramientas de procesamiento del lenguaje natural desarrolladas en el Centro, las que llamaron más la atención fueron las de desambiguación semántica y de análisis sintáctico. En la primera, el visitante podía teclear en el ordenador cualquier frase como, por ejemplo, «El hombre bajo bajó a tocar el bajo» y el ordenador le indicaba que el primer «bajo» es una característica del hombre, el segundo «bajo» una acción y el tercer «bajo» un instrumento musical. La segunda herramienta proporciona de forma automática el árbol sintáctico que todo alumno de enseñanza básica ha tenido que hacer alguna vez, señalan desde el citado centro. Entre las aplicaciones de estos tipos de herramientas se tienen, por ejemplo, la extracción automática de información de un texto, la producción de resúmenes o la traducción de un texto de un idioma a otro.

 

Notas

 

1 Sail Labs: http://www.sail-labs.es

2 Ampersand: http://www.ampersand.es

3 Q-go: http://www.q-go.com

4 Automatic Trans: http://www.automatictrans.es

5 Telefónica I+D (TID): http://www.telefonica.es/index/tid.html

6 Unidad de Investigación en Lingüística Computacional (UILC), del Instituto Universitario de Lingüística Aplicada de la Universitat Pompeu Fabra (UPF, Barcelona): http://www.iula.upf.es

7 Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP), de la Universidad Politécnica de Catalunya (UPC): http://www.talp.upc.es

8 Grupo de Tratamiento del Habla del Departamento de Teoría de Señal y Comunicaciones, de la UPC: http://gps-tsc.upc.es/veu/veu.html

9 Grupo de Tratamiento del Lenguaje Natural del Departamento de Lenguajes y Sistemas Informáticos, de la UPC: http://www.lsi.upc.es/~acquilex/nlrg.html

 

 

 

 

 

Figura 1  Independientemente de las características de cada portal, el esquema general de funcionamiento es el mismo: un usuario llama a un número de teléfono determinado, y entabla una «conversación» con un sistema de diálogo, que le permite «navegar» a través del sistema por medio de la voz, normalmente por medio de menús, hasta acceder a la información o el servicio deseados. Todo de forma totalmente automática, sin intervención alguna de un operador humano

 

 

 

 

Figura 2  La arquitectura del sistema y las herramientas que se utilizan