Ciencia en Internet
Tecnologías
de la lengua
Language technologies
Maria Roura Poch
La posibilidad de acceso a grandes bases de datos en Internet,
en el momento actual, permite que el procesamiento del lenguaje esté orientado
al tratamiento de esta información y a desarrollar aplicaciones y recursos de
ingeniería lingüística que permitan a los usuarios no expertos acceder a ellos
de manera adecuada. Es por este motivo que el interés en el área del
procesamiento del lenguaje se centra en el desarrollo de sistemas de extracción
y recuperación de la información. Por otra parte, la posibilidad de interactuar
con los sistemas informáticos mediante el habla, sin tener que recurrir al
teclado, constituye un objetivo que permitirá una interacción más natural y
flexible con los sistemas informáticos.
Las tecnologías de la lengua, por otro lado, se centran
en la aplicación de los ordenadores al estudio científico del lenguaje, en los
modelos lingüísticos formales, y en los sistemas informáticos de comprensión y
generación de textos y habla. El procesamiento del lenguaje natural, conocido
por las siglas PLN, constituye una
parte esencial de la inteligencia artificial. Los sistemas de procesamiento del
lenguaje natural intentan simular el comportamiento lingüístico humano. Para
ello, según los expertos, deben tomar conciencia tanto de las estructuras
propias del lenguaje, como del conocimiento general acerca del universo del
discurso. Entre los objetivos del procesamiento del lenguaje natural está el
facilitar la interrelación persona-ordenador y propiciar una comunicación mucho
más fluida y menos rígida que la permitida por los lenguajes formales.
A nivel internacional, la asociación profesional más
importante es la Association for
Computacional Linguistics (ACL) en la dirección: http://www.aclweb.org/.
Otras asociaciones de ámbito internacional son: Association for Literacy and Linguistic
Computing (ALLC) en: http://www.allc.org/; la Association for the Computers and the Humanities (ACH) en la
dirección: http://www.ach.org/; la International Association for Machine Translation (IAMT)en http://www.iamt.org/; y la European
Association for Logic, Language and Information en: http://www.folli.uva.nl/.
Con Internet podemos acceder fácilmente a la
información, pero ésta no siempre está al alcance de la mayoría. Las barreras
lingüísticas frenan la comunicación real entre unos y otros. Por todo ello, los
científicos están desarrollando lenguajes universales que describan conceptos
y, en consecuencia, permitan la traducción automática entre diferentes idiomas.
La Universidad Carnegie Mellon es una de las
instituciones donde el desarrollo de las tecnologías del lenguaje está más
avanzado. Los investigadores están trabajando en un prototipo que incluye los
cuatro procesos de las tecnologías de la lengua: reconocimiento de voz,
procesamiento del lenguaje natural, traducción automática de texto a texto y
síntesis de voz. La página de la Universidad Carnegie Mellon sobre
reconocimiento de la voz está en: http://www.speech.cs.cmu.edu y en la dirección http://www.speechtek.com encontramos una revista sobre
las tecnologías del habla. Desde estas direcciones hay distintos enlaces a
institutos de tecnologías del lenguaje y centros de investigación sobre
traducción por ordenador.
También es interesante el directorio de recursos e
instituciones de lingüística computacional en http://www.ims.uni-stuttgart.de/info/FTPServer.html, que a su vez, permite el
acceso a otras páginas de academias e instituciones. Asimismo, http://www.ac-toulouse.fr/espagnol/htm/rec_ling/recursos/tecn_len.htm es otra interesante página
sobre recursos lingüísticos en Internet relacionada con las tecnologías de la
lengua.
Otro proyecto de investigación es Universal Networking Language (UNL), un lenguaje electrónico que
sólo el ordenador necesita entender. Este proyecto está desarrollado por
Hiroshi Uchida en el Institute of Advanced Studies de la Universidad de las
Naciones Unidas (http://www.iai.uni-sb.de/UNL/unl-en.html).
En la dirección http://cl-www.dfki.unisb.de/cl/registry/draft.html hay un catálogo elaborado por
el Centro Alemán de Investigación en Inteligencia Artificial con más de cien
aplicaciones lingüísticas de la informática clasificadas por categorías.
En la página web http://www.aist-nara.ac.jp/IS/Shikano-lab/database/Internet-resource/e-www-site.html encontramos una colección de
enlaces web relacionados con las tecnologías de la voz recopilados por el
profesor Kiyohiro Shikano del Instituto
NAIST del Japón.
En http://www.helix.nature.com/nsu accedemos a noticias de
ciencia y en http://xxx.lanl.gov se puede consultar un archivo
de trabajos científicos relacionados con el tema tratado.
El campo de las tecnologías de la lengua está muy
relacionado con empresas multinacionales del sector de la informática e
innovación tecnológica y es interesante ver los diferentes productos de que
disponen y ofertan. Las páginas de empresas relacionadas son las siguientes:
• IBM (http://www.software.ibm.com/speech): sistemas de
reconocimiento de voz así como otras tecnologías para web.
• Lernout & Hauspie (http://www.lhs.com): los productos y servicios de esta
empresa tienen su origen en cuatro tecnologías esenciales: reconocimiento del
habla, conversión de texto a habla, compresión digital de habla y música y
conversión de texto a texto como traducción.
• Dragon Systems (http://dragonsys.com) [en estos momentos forma parte
de Lernout & Hauspie]: ofrece productos en áreas tales como dictado
automático, traducción, compresión del sonido, sintetización de voz y
documentación industrial.
• Philips
(http://www.speech.be.philips.com).
• Microsoft (http://www.research.microsoft.com/research/srg/).
• Lucent (http://www.bell-labs.com/project/tts/): temas
relacionados con síntesis de texto y habla a nivel de varias lenguas. Tienen
varias aplicaciones como lectura del correo electrónico y generación de
respuestas habladas.
• Siemens (http://www.siemens.de/ic/products/cd/deutsch/index/products/speech/default.htm).
• Bosch
(http://www.bosch.de).
• DaimlerChrysler (http://www.daimlerchrysler.de).
• Por último, un listado más o menos exhaustivo lo
encontramos en las categorías del buscador Yahoo ( http://www.dir.yahoo.com/Bussiness_and_Economy/comanies/Computers/Software/Voice_Recognotion/).
Todas estas direcciones de traducción automática se
basan, precisamente, en los procesos de reconocimiento de voz, el procesamiento
del lenguaje natural para analizar su estructura y significado, la traducción a
otra lengua y su conversión de nuevo en señal acústica. El reto ahora es
ensamblar estos programas en uno solo y conseguir que el abanico de lenguas
susceptibles de traducción automática sea lo más amplia posible.
En España, encontramos material relacionado con las
tecnologías de la lengua en la Sociedad
Española para el Procesamiento del Lenguaje Natural, a través de su web (http://gplsi.dlsi.ua.es/SEPLN) y en el ámbito institucional,
el Observatorio Español de Industrias de
la Lengua (OEIL) (http://www.cervantes.es/oeil/Oeiles.htm). Ambas direcciones
electrónicas constituyen dos buenas fuentes de información sobre el tema de las
tecnologías del lenguaje. El OEIL es
un observatorio creado por el Instituto
Cervantes (http://www.cervantes.es/Internet/) y se encarga de promover la
ingeniería lingüística en España. Sus principales actividades son la difusión
de información a la comunidad investigadora y el establecimiento de contactos
entre el mundo académico y el mundo empresarial.
Las publicaciones científicas más importantes, y de
mayor prestigio internacional, sobre lingüística computacional son:
• Computational
Linguistics
(http://mitpress.mit.edu/journal-home.tcl?issn=08912017), revista trimestral
publicada por The MIT Press de la Universidad de Cambridge.
• Literary
and Linguistic Computing (http://www3.oup.co.uk/litlin), de la Oxford University Press), enfocada hacia la informática
aplicada a la investigación lingüística y literaria.
•
Computers and the Humanities (http://kapis.www.wkap.nl/kapis/CGI-BIN/WORLD/journalhome.htm?0010-4817),
publicada por Kluwer, sobre las aplicaciones de la informática a las
humanidades en general y también a la lingüística.
• Machine
Translation (http://admin.ccl.umist.ac.uk), también
publicada por Kluwer y dedicada específicamente al campo de la traducción
automática.
• Journal
of Logic, Language and Information (http://www.folli.uva.nl/Jolli), sobre los aspectos lógicos y
computacionales de los lenguajes naturales y los lenguajes formales, publicado
también por Kluwer.
• Natural Language
Engineering (http://www.dur.ac.uk/~dcs0www3/lnle/journal.html),
de la Cambridge University Press, sobre aplicaciones prácticas de la
lingüística computacional.
• En España, la única publicación científica regular
dedicada íntegramente a esta disciplina es la Revista de
la Sociedad Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org), de periodicidad semestral y
distribución limitada a los miembros de esta asociación.
Este es el estado de la cuestión de las tecnologías de
la lengua y que, según los expertos, en pocos años romperán las barreras
lingüísticas que nos separan.