Ciencia en Internet

 

Tecnologías de la lengua

 

Language technologies

 

Maria Roura Poch

 

La posibilidad de acceso a grandes bases de datos en Internet, en el momento actual, permite que el procesamiento del lenguaje esté orientado al tratamiento de esta información y a desarrollar aplicaciones y recursos de ingeniería lingüística que permitan a los usuarios no expertos acceder a ellos de manera adecuada. Es por este motivo que el interés en el área del procesamiento del lenguaje se centra en el desarrollo de sistemas de extracción y recuperación de la información. Por otra parte, la posibilidad de interactuar con los sistemas informáticos mediante el habla, sin tener que recurrir al teclado, constituye un objetivo que permitirá una interacción más natural y flexible con los sistemas informáticos.

Las tecnologías de la lengua, por otro lado, se centran en la aplicación de los ordenadores al estudio científico del lenguaje, en los modelos lingüísticos formales, y en los sistemas informáticos de comprensión y generación de textos y habla. El procesamiento del lenguaje natural, conocido por las siglas PLN, constituye una parte esencial de la inteligencia artificial. Los sistemas de procesamiento del lenguaje natural intentan simular el comportamiento lingüístico humano. Para ello, según los expertos, deben tomar conciencia tanto de las estructuras propias del lenguaje, como del conocimiento general acerca del universo del discurso. Entre los objetivos del procesamiento del lenguaje natural está el facilitar la interrelación persona-ordenador y propiciar una comunicación mucho más fluida y menos rígida que la permitida por los lenguajes formales.

A nivel internacional, la asociación profesional más importante es la Association for Computacional Linguistics (ACL) en la dirección: http://www.aclweb.org/.

Otras asociaciones de ámbito internacional son: Association for Literacy and Linguistic Computing (ALLC) en: http://www.allc.org/; la Association for the Computers and the Humanities (ACH) en la dirección: http://www.ach.org/; la International Association for Machine Translation (IAMT)en http://www.iamt.org/; y la European Association for Logic, Language and Information en: http://www.folli.uva.nl/.

Con Internet podemos acceder fácilmente a la información, pero ésta no siempre está al alcance de la mayoría. Las barreras lingüísticas frenan la comunicación real entre unos y otros. Por todo ello, los científicos están desarrollando lenguajes universales que describan conceptos y, en consecuencia, permitan la traducción automática entre diferentes idiomas.

La Universidad Carnegie Mellon es una de las instituciones donde el desarrollo de las tecnologías del lenguaje está más avanzado. Los investigadores están trabajando en un prototipo que incluye los cuatro procesos de las tecnologías de la lengua: reconocimiento de voz, procesamiento del lenguaje natural, traducción automática de texto a texto y síntesis de voz. La página de la Universidad Carnegie Mellon sobre reconocimiento de la voz está en: http://www.speech.cs.cmu.edu y en la dirección http://www.speechtek.com encontramos una revista sobre las tecnologías del habla. Desde estas direcciones hay distintos enlaces a institutos de tecnologías del lenguaje y centros de investigación sobre traducción por ordenador.

También es interesante el directorio de recursos e instituciones de lingüística computacional en http://www.ims.uni-stuttgart.de/info/FTPServer.html, que a su vez, permite el acceso a otras páginas de academias e instituciones. Asimismo, http://www.ac-toulouse.fr/espagnol/htm/rec_ling/recursos/tecn_len.htm es otra interesante página sobre recursos lingüísticos en Internet relacionada con las tecnologías de la lengua.

Otro proyecto de investigación es Universal Networking Language (UNL), un lenguaje electrónico que sólo el ordenador necesita entender. Este proyecto está desarrollado por Hiroshi Uchida en el Institute of Advanced Studies de la Universidad de las Naciones Unidas (http://www.iai.uni-sb.de/UNL/unl-en.html).

En la dirección http://cl-www.dfki.unisb.de/cl/registry/draft.html hay un catálogo elaborado por el Centro Alemán de Investigación en Inteligencia Artificial con más de cien aplicaciones lingüísticas de la informática clasificadas por categorías.

En la página web http://www.aist-nara.ac.jp/IS/Shikano-lab/database/Internet-resource/e-www-site.html encontramos una colección de enlaces web relacionados con las tecnologías de la voz recopilados por el profesor Kiyohiro Shikano del Instituto NAIST del Japón.

En http://www.helix.nature.com/nsu accedemos a noticias de ciencia y en http://xxx.lanl.gov se puede consultar un archivo de trabajos científicos relacionados con el tema tratado.

El campo de las tecnologías de la lengua está muy relacionado con empresas multinacionales del sector de la informática e innovación tecnológica y es interesante ver los diferentes productos de que disponen y ofertan. Las páginas de empresas relacionadas son las siguientes:

 

• IBM (http://www.software.ibm.com/speech): sistemas de reconocimiento de voz así como otras tecnologías para web.

Lernout & Hauspie (http://www.lhs.com): los productos y servicios de esta empresa tienen su origen en cuatro tecnologías esenciales: reconocimiento del habla, conversión de texto a habla, compresión digital de habla y música y conversión de texto a texto como traducción.

• Dragon Systems (http://dragonsys.com) [en estos momentos forma parte de Lernout & Hauspie]: ofrece productos en áreas tales como dictado automático, traducción, compresión del sonido, sintetización de voz y documentación industrial.

• Philips (http://www.speech.be.philips.com).

• Microsoft (http://www.research.microsoft.com/research/srg/).

• Lucent (http://www.bell-labs.com/project/tts/): temas relacionados con síntesis de texto y habla a nivel de varias lenguas. Tienen varias aplicaciones como lectura del correo electrónico y generación de respuestas habladas.

• Siemens (http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/default.htm).

• Bosch (http://www.bosch.de).

DaimlerChrysler (http://www.daimlerchrysler.de).

• Por último, un listado más o menos exhaustivo lo encontramos en las categorías del buscador Yahoo ( http://www.dir.yahoo.com/Bussiness_and_Economy/comanies/Computers/Software/Voice_Recognotion/).

 

Todas estas direcciones de traducción automática se basan, precisamente, en los procesos de reconocimiento de voz, el procesamiento del lenguaje natural para analizar su estructura y significado, la traducción a otra lengua y su conversión de nuevo en señal acústica. El reto ahora es ensamblar estos programas en uno solo y conseguir que el abanico de lenguas susceptibles de traducción automática sea lo más amplia posible.

En España, encontramos material relacionado con las tecnologías de la lengua en la Sociedad Española para el Procesamiento del Lenguaje Natural, a través de su web (http://gplsi.dlsi.ua.es/SEPLN) y en el ámbito institucional, el Observatorio Español de Industrias de la Lengua (OEIL) (http://www.cervantes.es/oeil/Oeiles.htm). Ambas direcciones electrónicas constituyen dos buenas fuentes de información sobre el tema de las tecnologías del lenguaje. El OEIL es un observatorio creado por el Instituto Cervantes (http://www.cervantes.es/Internet/) y se encarga de promover la ingeniería lingüística en España. Sus principales actividades son la difusión de información a la comunidad investigadora y el establecimiento de contactos entre el mundo académico y el mundo empresarial.

Las publicaciones científicas más importantes, y de mayor prestigio internacional, sobre lingüística computacional son:

 

Computational Linguistics (http://mitpress.mit.edu/journal-home.tcl?issn=08912017), revista trimestral publicada por The MIT Press de la Universidad de Cambridge.

• Literary and Linguistic Computing (http://www3.oup.co.uk/litlin), de la Oxford University Press), enfocada hacia la informática aplicada a la investigación lingüística y literaria.

• Computers and the Humanities (http://kapis.www.wkap.nl/kapis/CGI-BIN/WORLD/journalhome.htm?0010-4817), publicada por Kluwer, sobre las aplicaciones de la informática a las humanidades en general y también a la lingüística.

Machine Translation (http://admin.ccl.umist.ac.uk), también publicada por Kluwer y dedicada específicamente al campo de la traducción automática.

• Journal of Logic, Language and Information (http://www.folli.uva.nl/Jolli), sobre los aspectos lógicos y computacionales de los lenguajes naturales y los lenguajes formales, publicado también por Kluwer.

Natural Language Engineering (http://www.dur.ac.uk/~dcs0www3/lnle/journal.html), de la Cambridge University Press, sobre aplicaciones prácticas de la lingüística computacional.

• En España, la única publicación científica regular dedicada íntegramente a esta disciplina es la Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org), de periodicidad semestral y distribución limitada a los miembros de esta asociación.

 

Este es el estado de la cuestión de las tecnologías de la lengua y que, según los expertos, en pocos años romperán las barreras lingüísticas que nos separan.