Para reconocer
el habla de forma automática se requiere una representación paramétrica de la voz
que retenga sus características relevantes. En este artículo se exponen las
ideas básicas del proceso de extracción de dichas características a partir de
la señal de voz recogida por el micrófono, indicando las propiedades de
producción y percepción de la voz que están en juego y fijándose
particularmente en la consecución de representaciones robustas al entorno.
Automatic speech recognition requires a parametric representation of the
speech signal which carries its relevant features. In this paper, the basic
ideas underlying the process of feature extraction from the speech signal are
described, the involved properties of voice production and perception are
summarised, and a particular attention is payed to environmental robust
techniques.
Los sistemas
informáticos que permiten interacción oral con el usuario van ganando,
lentamente, en prestaciones y en naturalidad. Así, en nuestra vida cotidiana se
nos irán haciendo cada vez más familiares acciones como el control de un
dispositivo mediante órdenes orales o el acceso a un servicio de información dialogando con el sistema. Y, a más
largo plazo, veremos cómo la voz sustituye en gran medida al teclado, o el
asistente personal digital nos traduce lo que está diciendo nuestro
interlocutor humano.
Todas estas
aplicaciones requieren que el sistema sea capaz de convertir la voz captada por
un micrófono en una secuencia de palabras, proceso que se denomina reconocimiento del habla. Dicha
secuencia puede ser el resultado final que se persigue, como en el caso del
dictado automático, o bien la entrada a una etapa de procesamiento posterior
que permita comprender el significado de lo que está diciendo el usuario.
Los sistemas
actuales de reconocimiento automático representan el habla mediante modelos
estadísticos (modelos de Markov ocultos) de las unidades fonéticas elementales
(normalmente fonemas contextuales), así como de las relaciones que se
establecen entre dichas unidades para componer las palabras (transcripciones
fonéticas) y entre las palabras para componer las frases (gramática). Con estos
modelos estadísticos, y mediante el cálculo de probabilidades, se estima la
secuencia de palabras que ha sido pronunciada. La comprensión del habla utiliza
adicionalmente el conocimiento semántico del dominio de la aplicación para
captar el significado de la elocución de entrada al sistema a partir de la
cadena (o cadenas alternativas) de palabras que suministra el reconocedor.
La inmensa mayoría
de sistemas de reconocimiento actuales se basan en modelos estadísticos obtenidos
con algoritmos de aprendizaje o entrenamiento que extraen las características
del habla implícitamente contenidas en grandes bases de datos orales (y también
textuales, para entrenar las gramáticas), convenientemente transcritas y
etiquetadas.
Como se comprenderá,
para que el sistema ofrezca una buena tasa de reconocimiento, debe existir una
correspondencia entre la base de datos de entrenamiento y la tarea que deberá
abordar el reconocedor cuando esté funcionando. Por ejemplo, para entrenar adecuadamente
modelos de las unidades fonéticas elementales, dichas unidades deben aparecer
un número suficiente de veces en la base de aprendizaje y en variedad de
contextos. Si se quiere que el sistema sirva para cualquier hablante de un
idioma o dialecto (sistema independiente del locutor), la base de datos de
aprendizaje deberá contener las voces de un número elevado de locutores (por
ejemplo 5000 en las bases SPEECHDAT recogidas para la mayoría de lenguas de la
Europa occidental).
Puesto que la voz
consiste en una secuencia de sonidos elementales diferenciados, el cálculo de
probabilidad que realiza el sistema de reconocimiento se lleva a cabo sobre una
secuencia temporal de observaciones, conteniendo cada una de ellas las
características de la señal de voz correspondientes a un segmento temporal
determinado que son relevantes para el reconocimiento.
Idealmente, estas
características deberían representar un segmento de voz uniforme, es decir, un
evento acústico bien definido. Sin embargo, una simple mirada a la forma de
onda de la señal de voz entregada por el micrófono muestra que ésta no puede
describirse simplemente como la concatenación de segmentos uniformes, y que
resulta imposible determinar una frontera nítida entre sonidos, como
consecuencia de la coarticulación entreexistente.
Esta es la razón que
hace preferible que la voz se segmente en tramos de longitud y desplazamiento
fijos, y que los intentos de representarla como una sucesión de segmentos
variables no hayan dado lugar a una mejora de resultados de reconocimiento.
Así pues, se trata
de representar cada tramo de la señal de voz (de longitud entre 20 y 30
milisegundos) mediante un conjunto de características que se corresponden con un
modelo paramétrico de dicha señal. Como veremos más adelante, dichas
características, a menudo denominadas parámetros, no pretenden captar toda la
complejidad de la señal acústica, sino sólo su espectro, es decir, la
distribución de la energía de la señal a lo largo de la frecuencia. Y,
simplificando más todavía, los parámetros representan únicamente la forma que
envuelve el espectro (envolvente espectral o formantes), dejando de lado la
estructura armónica que caracteriza los segmentos sonoros, es decir, los que se
generan a partir del efecto de vibración de las cuerdas vocales.
Dicha estructura
armónica, que es debida a la periodicidad de la señal, determina el tono de la
voz y éste se ha usado raramente en reconocimiento hasta el momento presente,
excepto en lenguas tonales como el mandarín; no ocurre así en el proceso de
compresión y codificación digital de la voz para su transmisión y posterior
reproducción, puesto que la entonación es un elemento perceptivo importante.
Cuando un sistema de
reconocimiento funciona en situaciones reales se encuentra con condiciones
adversas, como ruidos, distorsiones y otros, que degradan la calidad de la voz
y, además, hacen que los parámetros representativos ya no estén en sintonía con
los modelos estadísticos desarrollados en la fase de aprendizaje del sistema.
La capacidad del sistema para hacer frente a estos cambios de las condiciones
del entorno se denomina robustez. En la actualidad, se trabaja
intensamente en el desarrollo de técnicas para el reconocimiento robusto del
habla.
A continuación, se
van a presentar las técnicas de obtención de los parámetros que caracterizan
–cada tramo de– la voz en un sistema de reconocimiento y también, aunque más
brevemente, las que se utilizan en la compresión de la voz para su transmisión
digital. Son técnicas de tratamiento de señal, muchas de las cuales se utilizan
también en otros ámbitos de aplicación, como telecomunicaciones, robótica,
bioingeniería, geofísica, etc. Antes de abordarlas, se repasará brevemente el
conocimiento sobre la producción y percepción de la voz que se utiliza en
ellas.
Contemplando el
funcionamiento del aparato fonador humano se observa ante todo el movimiento de
los órganos articulatorios que dan forma a una cavidad acústica, el tracto
vocal. Pero para que se produzca el sonido es necesaria una fuente de ondas de
presión del aire, conformada por la vibración de las cuerdas vocales (caso
sonoro), o por una fricación o aspiración (caso sordo). Ante un observador
habituado a la teoría de sistemas, este mecanismo acústico sugiere enseguida un
modelo de entrada-salida, en el que la señal de la voz es la salida de un
sistema lineal o filtro en cuya entrada se encuentra la fuente acústica antes
mencionada.
Dicho modelo de
producción de la voz basa su sencillez en la separación que realiza entre el
filtro, que simula el funcionamiento del tracto vocal, el cual a su vez
confiere a cada sonido su timbre característico, y la excitación o entrada, que
da cuenta del tipo de fuente acústica (sorda o sonora) y, en el caso sonoro, de
la frecuencia de vibración de las cuerdas vocales, denominada frecuencia
fundamental o tono de la voz.
En este modelo
simplificado se considera que el filtro es puramente recurrente, es decir, que
es un sistema lineal sin ceros, sólo con unos 10 polos. Puesto que la
envolvente espectral de la señal de voz generada con este modelo la determina
el filtro, ello equivale a suponer que sólo interesan los picos de la
envolvente espectral, no sus valles.
Gracias a dicho
modelo, basado en el análisis de la transmisión de las ondas planas del sonido
a través de un tubo sin pérdidas de sección no uniforme, es posible el uso de
una técnica eficiente de determinación de los parámetros del filtro que, fundamentada
en la idea de predicción lineal óptima, constituye la base de la mayoría de
sistemas de compresión de la señal de voz. En reconocimiento del habla, también
se ha empleado de modo extenso la predicción lineal, pero la técnica
alternativa basada en subbandas, que veremos más adelante, la ha ido
desplazando gracias a su mejor comportamiento frente a las perturbaciones de la
señal y a la mayor flexibilidad que le confiere el hecho de trabajar en bandas
separadas.
Hasta ahora hemos
tratado el modo cómo se produce la voz. Pero al ser la voz un medio de
comunicación, interesa conocer también el mecanismo de percepción ya que,
lógicamente, las características de la señal estarán en función no sólo del
aparato productor sino también del receptor, el oído.
Hay dos propiedades
del aparato auditivo humano que son relevantes en el desarrollo de sistemas
tanto de reconocimiento del habla como de compresión y codificación de la voz.
La primera es el efecto de enmascaramiento, por el que un sonido puede dejar de
oírse cuando está situado frecuencialmente (o temporalmente) cerca de otro
sonido de intensidad suficientemente alta. Esta propiedad ha resultado de gran
valor en el desarrollo de sistemas de compresión de audio y, en particular, de
voz. En efecto, a la distorsión introducida por efecto de la reducción del
número de bits que representan la voz se le hace jugar el papel del sonido
enmascarado.
En segundo lugar, la
cóclea del oído funciona como un analizador espectral, trabajando en bandas
frecuenciales no uniformes que se hacen sucesivamente más anchas a medida que
crece la frecuencia (tenemos una muestra de ello en el piano, donde las teclas
de sonidos agudos están más distanciadas en frecuencia que las de sonidos más
graves). Pues bien, la técnica basada en subbandas y que, según hemos afirmado,
es la más utilizada para representar la envolvente espectral de la voz en el
reconocimiento del habla, imita de algún modo el análisis frecuencial realizado
por la cóclea. Los parámetros representativos del tramo de voz que esta técnica
determina son las fracciones de energía de la señal correspondientes a unas 20
bandas frecuenciales distribuidas según una escala no uniforme denominada mel que, determinada con experimentos
perceptivos, refleja la resolución frecuencial del oído humano.
La señal de voz es
altamente redundante, como se nota a simple vista observando, por ejemplo, la
forma de onda de una vocal. El problema que se plantea en la compresión de voz
es la extracción de dicha redundancia para poder almacenar la voz o
transmitirla por vía digital (en telefonía móvil, por ejemplo) de forma
eficiente. En los sistemas de compresión y codificación más utilizados se
codifican, por un lado, los parámetros del filtro, obtenidos mediante el
cálculo de un predictor de la señal optimizado y, por otro, la señal que actúa
de entrada al filtro en la reconstrucción de la voz en el terminal receptor.
Los distintos sistemas de compresión se diferencian en la forma de modelar
dicha señal de excitación.
El sonido de la voz,
que consiste originalmente en una onda de presión acústica del aire, se
convierte en el micrófono en una magnitud eléctrica variante en el tiempo: la
señal de voz. Esta señal se digitaliza, tomando una muestra cada cierto intervalo
de tiempo y expresándola con una cadena de bits. La velocidad de muestreo suele
ser de 8000 muestras por segundo en aplicaciones de telefonía, pues es
suficiente para conservar la calidad de la voz telefónica, pero puede ascender
hasta las 16 000 muestras por segundo si se quiere preservar toda la calidad
acústica de la voz.
Si se quiere una
alta calidad del habla a costa de enviar un número elevado de bits por segundo,
la señal excitación que se usa para reconstruir la voz consiste en el error de la
predicción codificado con un número de bits por muestra suficiente para no
perder casi información; por ejemplo, el sistema de compresión-codificación
denominado ADPCM (Adaptive Differential Pulse Code Modulation), trabaja
a 32 000 bits por segundo. Si el objetivo es reducir al máximo la velocidad de
transmisión (a menos de un bit por muestra de señal), la excitación se genera
en el receptor a partir del código (encontrado en el emisor y transmitido) de
una secuencia artificial que, introducida en el filtro, da una secuencia de
salida que difiere un mínimo, en términos perceptivos, de la señal de voz
original; por ejemplo, el sistema de compresión-codificación denominado CELP (Code-Excited
Linear Prediction), puede trabajar a velocidades de 5 o 6 bits por segundo.
Cuando se desea grabar voz de calidad resulta útil una técnica del primer tipo;
en cambio, una técnica del segundo tipo se usa, por ejemplo, para transmisión
de voz en telefonía móvil GSM.
En el reconocimiento
del habla, la señal de voz, una vez digitalizada, se procesa para producir una
nueva representación de la voz en forma de secuencia de vectores o agrupaciones
de unos valores que denominamos parámetros
y que, como se ha dicho anteriormente, deben representar la información
contenida en la envolvente del espectro. El número de parámetros debe ser
reducido, puesto que la base de datos de entrenamiento siempre es limitada, por
lo que cuantos más parámetros tenga la representación menos fiables son los
valores entrenados y, por otro lado, más costoso es el proceso de
reconocimiento.
El esquema de la
figura 1 muestra las distintas etapas en las que podemos dividir el proceso
utilizado de modo habitual en la obtención de los parámetros (parametrización),
que se basa en la descomposición en bandas espectrales. El análisis se realiza
tramo a tramo, es decir, desplazando de forma regular y a saltos la ventana a
través de la cual se observa la señal.
En primer lugar, se
aísla el tramo bajo análisis multiplicando la señal por una secuencia en forma
de arco (ventana de Hamming) cuya longitud suele ser de 25 o 30 milisegundos y
que se desplaza unos 10 milisegundos entre un tramo y el siguiente. A
continuación, se calcula (estima) el espectro y se integra su valor en cada una
de las bandas en que previamente se ha dividido el margen de frecuencias de
acuerdo con la escala mel. Cuando se tienen 8000 muestras por segundo,
este margen va de 0 a 4000 Hz, siendo suficiente para la voz típica de
telefonía, pues ésta se extiende de 300 a 3400 Hz. Con esta integración se
elimina prácticamente el efecto de las fluctuaciones armónicas que caen dentro
de la banda y el resultado es una secuencia de energías (ordenadas en
frecuencia) que sigue la forma de la envolvente espectral.
Para evaluar las
probabilidades no se usan directamente estos parámetros de energía sino que se
les somete antes a unas transformaciones para adaptarlos a las hipótesis que hacen
los modelos estadísticos de las unidades del habla. En primer lugar, se
comprime la amplitud de las energías calculando su logaritmo a fin de obtener
valores con distribuciones estadísticas más parecidas a las gaussianas que
suponen los modelos usados en el reconocimiento. Otra razón de peso para usar
logaritmos es el carácter aditivo que pasan a tener las distorsiones que,
introducidas por el micrófono o la línea telefónica, son multiplicativas en el
dominio lineal. Al presentarse en forma de suma se pueden eliminar de manera
mucho más fácil.
Las energías
logarítmicas de bandas cercanas están correlacionadas con fuerza, mientras que
los modelos de Markov ocultos típicos suponen que los parámetros no guardan
correlación estadística entre ellos. Para eliminar la correlación se suele
llevar a cabo la transformación coseno discreta que, aplicada al conjunto de
energías de un tramo (unas 24) entrega los denominados coeficientes cepstrales,
de los que sólo hace falta conservar los primeros (unos 12), lo cual representa
una ventaja adicional. Se han propuesto unos parámetros alternativos a dichos
coeficientes, que tampoco están correlacionados y, a diferencia de ellos,
tienen la ventaja de ubicarse en frecuencia. Estos parámetros, unos 12 de forma
típica, se obtienen de una manera muy simple, restando cada dos energías
logarítmicas no consecutivas (la 1ª y la 3ª, la 2ª y la 4ª, etc.), por lo que
son medidas de pendiente espectral, característica que ha mostrado ser un buen
correlato perceptivo.
La última operación
indicada en la figura consiste en un filtrado lineal de las secuencias
temporales de parámetros espectrales, el resultado del cual es un nuevo vector
de parámetros por cada tramo que se suministra al algoritmo de reconocimiento
junto con el vector original. El filtro se elige de tal manera que este segundo
vector sea una derivada temporal, es decir, una medida de la pendiente de la
trayectoria que siguen los parámetros espectrales. A veces, también se usa la
segunda derivada, además de la primera, para conseguir así una descripción
todavía más completa del cambio que sufren dichos parámetros a lo largo del
tiempo. Además, en el conjunto de parámetros finales se suelen incorporar las
derivadas temporales de la energía del tramo de señal.
De esta forma, aunque
el número de parámetros y, en consecuencia, la complejidad de cálculo, se
incrementan de forma sustancial (hasta duplicarse o triplicarse), el porcentaje
de acierto del reconocimiento mejora significativamente. La razón de ello
estriba de nuevo en una limitación de los modelos de Markov ocultos, pues
suponen que los vectores de observaciones (de parámetros) de dos tramos
distintos son independientes, algo que no se corresponde con la realidad ya
que, con la corta distancia (10 milisegundos) que hay entre tramo y tramo, no
se aprecia en general un cambio substancial en la señal de voz al pasar de un
tramo al siguiente.
Las representaciones
actuales de la voz, aunque poco eficientes debido a que conllevan mucha
redundancia, permiten conseguir unas buenas prestaciones del reconocimiento
siempre que la señal de voz se registre en condiciones favorables. Sin embargo,
cuando un sistema de reconocimiento se pone a funcionar en situaciones reales
se encuentra con condiciones adversas tales como cambios en el hablante
(condiciones fisiológicas, emocionales, cambio en el modo de articulación
debido a un fuerte ruido ambiental, entre otras) y en el entorno acústico
(ruidos, reverberación y ecos) o eléctrico (como ruidos o distorsiones de la
señal provocados por el micrófono o el canal de transmisión), que son
irrelevantes desde el punto lingüístico pero que pueden degradar en gran medida
la tasa de reconocimiento.
Si la variabilidad
de las características de la voz aportada por las distintas condiciones
ambientales posibles fuera recogida por completo en la base de datos de
entrenamiento del sistema podríamos esperar que el resultado del reconocimiento
no se degradara mucho. Pero esto sólo resulta útil cuando las condiciones
ambientales en las que debe trabajar el sistema son muy específicas, como en el
caso de reconocimiento del habla dentro del automóvil (recientemente, se han
producido bases de datos en entorno de coche para varias lenguas europeas en el
proyecto SPEECHDAT-CAR). Y aún así es imposible recoger todas las alteraciones
que se pueden encontrar en un entorno específico, ya sea porque se desconocen,
por ser demasiado numerosas o por variar con el tiempo.
Llevar el micrófono
colgando, o tener que mantener la posición de la cabeza frente al micrófono de
sobremesa, son condiciones incómodas pero necesarias actualmente para que la
voz captada por el micrófono sea lo bastante limpia, en especial cuando existe
un ruido ambiental molesto. La situación deseable es que el micrófono se
encuentre a cierta distancia del o de los parlantes y éstos puedan moverse con
libertad (hands-free). En realidad,
resultaría conveniente que hubiera varios micrófonos para captar señales
distintas y luego procesarlas en conjunto y compararlas. De hecho, el sistema
auditivo humano dispone de dos entradas de voz y dicha binauralidad le permite
separar fuentes de sonido situadas en puntos distintos.
Se pueden distinguir
diferentes clases de ruidos. Los más benignos para el reconocimiento del habla
son los estacionarios, es decir, los que mantienen sus características
estadísticas a lo largo del tiempo. Puesto que en los intervalos sin voz
(silencios) aparecen aislados, se pueden determinar en ellos sus parámetros
espectrales y así, teniendo los ruidos caracterizados, resulta mucho más fácil
eliminarlos de los intervalos donde reside la voz. De ahí la importancia de
disponer de detectores fiables de actividad oral que permitan separar los
intervalos temporales de voz y de silencio.
Los ruidos más
difíciles de captar y eliminar suelen ser los de tipo impulsivo, tales como
golpes de puerta, pitidos cortos, tos y, sobre todo, la voz de otra persona que
se encuentre cerca; ésta es la situación más perjudicial para el
reconocimiento, puesto que un mismo segmento de señal contiene las dos voces y
resulta muy difícil separarlas para pasar a reconocer la que interesa.
En cualquier caso,
pero en especial cuando la base de aprendizaje no recoge las degradaciones de
la voz, hay que recurrir a técnicas de reconocimiento robusto, todavía en fase
de desarrollo en los laboratorios, que atacan el problema de varias formas:
1.
Obtención de una señal más limpia (speech enhancement). En este apartado se
hallan las agrupaciones (arrays) de
varios micrófonos, que actúan como una antena orientable hacia la fuente de
sonido deseada gracias el tratamiento de las señales recogidas en toda la
agrupación. Si se puede suponer que la
señal de voz y la de ruido son aditivas
y no correlativas (algo
que parece realista), el espectro de la señal ruidosa es la suma de los
espectros de voz y ruido, y se pueden aplicar varias técnicas de cancelación de
ruido. Por ejemplo, la señal se puede procesar con un filtro de Wiener para
reducir la presencia de ruido mezclado con la voz; el filtro se entrena durante
los silencios para que aprenda la estadística del ruido. Una forma alternativa
de eliminar (nunca totalmente) el ruido de la señal es la sustracción
espectral, que estima el espectro del ruido en los silencios y luego lo sustrae
del espectro de señal de voz ruidosa.
2.
Determinación de parámetros más
robustos. Es un hecho bien conocido que el sistema auditivo humano es más
robusto que cualquier sistema automático no sólo frente al ruido aditivo y las
distorsiones en general, sino frente a cualquier factor de variabilidad de la
voz, incluidos los cambios de articulación cuando el hablante está inmerso en
un ruido intenso (en una discoteca, por ejemplo). Por tanto, sería de esperar
que un sistema de reconocimiento del habla fuera más robusto a todos estos
factores si la representación de la señal de voz siguiera de cerca las
características perceptivas del sistema auditivo humano. Pero los intentos
realizados hasta el presente no se han visto muy favorecidos por el éxito. Por
otro lado, cada una de las etapas de parametrización expresadas en la figura 1
es susceptible de modificaciones que mejoren la robustez del sistema. Por
ejemplo, la transformación logarítmica no es la más adecuada en los valles del
espectro, ya que éstos se contaminan con más facilidad por el ruido aditivo que
los picos y, como el logaritmo comprime menos las amplitudes bajas que las
altas, una pequeña diferencia en un valle del espectro se convertirá en una
desviación relativamente grande en su logaritmo. Existen otras funciones de
compresión, como la raíz n-ésima, que mitigan de forma apreciable este
problema. El filtrado temporal expuesto en la misma figura se utiliza también
para mejorar la robustez del sistema. Cuando las señales se distorsionan de
forma lineal por el micrófono, el canal telefónico, etc, y dicha distorsión no
es idéntica para todas ellas, la tasa de error aumenta de modo sustancial.
Puesto que la distorsión únicamente contribuye con un término aditivo en los
parámetros logarítmicos, se puede cancelar su influencia eliminando con un
filtro la componente continua (frecuencia cero) de las secuencias temporales de
parámetros.
3.
Compensación
de los parámetros distorsionados y adaptación de los modelos a las nuevas
condiciones del entorno. En estas técnicas, los parámetros son procesados a fin
de que se asemejen estadísticamente a los que se hubieran obtenido con las
condiciones ambientales de entrenamiento. Una alternativa es adaptar a las
nuevas condiciones los modelos estadísticos de las unidades fonéticas desarrollados
para habla limpia; a menudo, estas técnicas usan para ello conocimiento del
ruido o la distorsión. Puesto que estas técnicas se basan en optimizaciones
estadísticas, se apartan del objetivo de este artículo.
En experimentos comparativos con
palabras sin sentido se observa que la capacidad de percepción auditiva humana
es superior a las prestaciones actuales de los sistemas de reconocimiento,
especialmente en entornos acústicos adversos. Esta constatación sugiere que la
extracción de características que se realiza todavía no está suficientemente
conseguida, e impulsa el desarrollo de representaciones de la voz más
efectivas. Es posible que un mejor conocimiento del funcionamiento del oído
humano pueda ayudar en este sentido, pero es probable que se obtengan progresos
más remarcables cuando la representación de la voz pueda ligarse a los
movimientos de los órganos articulatorios, pues ellos son su causa y, además,
pueden describirse con unos pocos parámetros. Quizás llegue un día en el que
las elevadas prestaciones de un sistema de reconocimiento del habla necesiten
la extracción de todas las características que transporta la señal de voz, tal
como ocurre ahora en la compresión de la voz para su transmisión. De momento,
uno de los objetivos principales que se persigue es aumentar la robustez de la
representación frente a las condiciones adversas. De todas formas, no hace
falta esperar que los problemas de robustez se resuelvan completamente en la
parametrización, ya que son abordables también, y de forma complementaria,
desde otras partes del sistema de reconocimiento y comprensión del habla.
Deller,
J.R.; Hansen, J.H.L.; Proakis, J.G.: Discrete-time
Processing of Speech Signals, IEEE Press, 1993.
Huang,
X.D.; Acero, A.; Hon, H.W.: Spoken
Language Processing, Prentice-Hall PTR, 2001.
Junqua,
J.C.; Haton, J.P.: Robustness in Automatic Speech
Recognition, Kluwer Acad. Publ., 1996.
Nadeu,
C.; Macho, D.; Hernando, J: «Time and
Frequency Filtering of Filter-Bank Energies for Robust HMM Speech Recognition»,
Speech Communication (Special Issue
on Noise Robust ASR) 2001; 34 (April): 93-114.
O'Shaughnessy,
D.: Speech Communication, Human and Machine,
Addison-Wesley Series in Electrical Engineering, Digital Signal Processing,
1990.
Picone,
J.W.:
«Signal Modeling Techniques in Speech Recognition», Proceedings of the IEEE
1993; 81 (Sept.): 1215-1247.
Rabiner,
L.R.; Juang, B.H.: Fundamentals of
Speech Recognition, Prentice-Hall, 1993.
Rabiner,
R.L.; Schafer, R.W.: Digital Processing of Speech
Signals, Englewood Cliffs, Prentice-Hall, 1978.
Climent Nadeu i Camprubí
Ingeniero de
telecomunicación y doctor por la Universitat Politècnica de Catalunya (UPC).
Profesor de la UPC desde 1977, actualmente es catedrático del Departament de
Teoria del Senyal i Comunicacions, e imparte materias de procesado de señal en
la ETSETB. Ha sido investigador visitante en AT&T Bell Labs y en el ICSI de
Berkeley. Su investigación se ha llevado a cabo sobre todo en el campo del tratamiento
del habla, teniendo publicados más de un centenar de artículos en libros,
revistas y actas de congresos. Actualmente es director del Centre de
Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) de la UPC.
Figura 1 Esquema típico de determinación
de los parámetros representativos de la envolvente espectral de cada tramo de
señal de voz
