¿Cómo se procesa el habla en una conversación por teléfono celular? La voz es producida por una señal de excitación generada en la garganta, lo cual es modificado por las resonancias producidas por diferentes formas de nuestro tracto vocal, nasales y faringe. La componente periódica de esta excitación de la glotis se caracteriza por su frecuencia fundamental [Hz], llamada de tono. Las frecuencias resonantes de los tractos vocales orales y faríngeos son llamados formantes. En un espectro de una trama de voz, aparece picos tan estrechas de fundamental y armonía; formantes aparecen como picos anchos de la envolvente del espectro.
El modelo LP del habla En 1960 Fant propuso un modelo lineal de la producción del habla denominado como el modelo de fuente y filtro, basado en la hipótesis de que la glotis y el tracto vocal son totalmente desacoplados y esto llevó al desarrollo de la autoregresiva (AR) o predictiva lineal modelo de la producción del habla. La excitación del modelo LP se supone que sea una secuencia de impulsos espaciados regularmente, o ruido blanco gaussiano (cuya variación puede ser ajustado), definiendo así implícitamente Voice/Unvoice Voice/Unvoice
Algoritmo de estimación de LP A partir de una señal dada, para encontrar el mejor conjunto de coeficientes de predicción, es decir, el conjunto que minimiza los errores de modelado, se trata de minimizar las diferencias acústicas entre la señal original y la que es producida por el modelo. Implica estimar el valor de los parámetros LP: periodo, ganancia, posición del interruptor V / UV, y los coeficientes de predicción, los mismos que se realizan de forma simultanea e independiente del periodo. Si se trata de entonación y sonoridad (V / UV) es de análisis complicado dado que, la amplitud del ciclo glotal varía de un período a otro y su período en sí no es constante. Además, el habla es raramente completamente sonoro; sus componentes de ruido aditivos hacen que la determinación de tono aún más difícil. Si es estacionario, la excitación del modelo LP (pulsos o ruido blanco) tiene una envolvente espectral plana, esto significa que la respuesta de frecuencia del filtro de síntesis será de aproximadamente coincidir con la envolvente espectral, y que la envolvente espectral de la LP residual será de aproximadamente plana. En una palabra: filtrado inverso de-correlatos de voz.
Procesamiento LP en la práctica
Si la voz no es estacionaria, el modelo LP se aplica sobre tramas de voz (típicamente 30 ms de largo, con una superposición de 20 ms),muestras de voz por lo general se ponderan utilizando una ventana de ponderación (típicamenteuna ventana de Hamming 30 ms de longitud). Esto evita que las primeras muestras decada marco, que no se puede predecir correctamente, de tener demasiado en peso mediante la producción de valores más altos de e² (n). Dos polos más se añaden habitualmente para modelar el ciclo glotal forma de onda (y también empíricamente, ya que los sonidos del habla LPC resultantes mejor). Para las aplicaciones basadas en el teléfono, que trabajan con una frecuencia de muestreo de 8 kHz, esto conduce a p = 10
Codificadores predictivos lineales En el sistema de análisis-síntesis LPC, la predicción de coeficientes son en realidad no se utiliza como tal; los coeficientes de reflexión relacionados o área de registro se prefieren proporciones, ya que tienen mejores propiedades de cuantificación. Cuantificación de la predicción de coeficientes pueden resultar en filtros inestables. Por otra parte, el codificador LPC10 es muy sensible a la eficiencia de su algoritmos de detección de voz / sin voz y estimación F0. Voces femeninas, cuya mayor frecuencia F0 a veces resulta en un segundo armónico en el centro de la primera formante, a menudo conducen a errores F0 (el segundo armónico ser confundido con F0). Una forma de mejorar la calidad de la voz LPC es, obviamente, para reducir las limitaciones de la excitación LPC. La excitación MPE se caracteriza por las posiciones y amplitudes de un número limitado de impulsos por fotograma (típicamente 10 pulsos por 10ms marco). Estimación de tono y voz / no tono ya no son necesarios. Se eligen posiciones y amplitudes de pulso iterativamente, con el fin de reducir al mínimo la energía del error de modelado (la diferencia entre la voz original y la voz sintética).