02-06-2015
Claudio E. Pedemonte Solanich Docente U. MAYOR TEMUCO
Tipologías de Señales. •
Tono puro o periódico simple •
•
•
•
Corresponde a una variación de presión sinusoidal. Amplitud. Frecuencia. Periodo.
1
02-06-2015
Tipologías de Señales •
Tono periódico complejo Está compuesto compuesto por una frecuencia fundamental y un grupo determinado de armónicos Sonidos producidos por instrumentos musicales de afinación definida. Sonidos producidos por el sistema fonatorio con vibración de pliegues vocálicos. Amplitud, Frecuencia, Periodo. •
•
•
•
Tipologías de Señales. •
Tono periódico complejo TEOREMA DE FOURIER Toda señal periódica compleja se puede descomponer en una una sumatoria de tonos simples
La frecuencia fundamental de un tono periódico complejo corresponde a la menor de sus componentes.
2
02-06-2015
Tipologías de Señales •
Sonidos aleatorios o ruido •
•
•
•
•
Compuestos por muchas frecuencias cuyos valores son impredecibles Ruido blanco Ruido generado por una cascada de agua Ruido rosa Amplitud
Representaciones gráficas del sonido Análisis Acústico de la Voz
3
02-06-2015
Oscilograma o forma de onda (waveform) •
•
Es una representación gráfica en que se muestra la variación de energía –eje vertical- de una onda con respecto al tiempo –eje horizontal-. Análisis de amplitud, periodo, duración.
Oscilograma Tono Puro 440 Hz, Software PRAAT
Oscilograma o forma de onda (waveform)
Oscilograma Voz Normal, fonema /a/, software PRAAT
4
02-06-2015
Espectro FFT o Spectrum •
•
•
Algoritmo informático que nos permite obtener el espectro de frecuencia de una señal tanto periódica compleja como no periódica en tiempo real. Representación gráfica en la que se muestra la relación de energía (amplitud) de las diferentes componentes o armónicos de un sonido, o concentraciones de energía en ciertos rangos de frecuencias. Representación de la frecuencia -eje horizontal- y la amplitud -eje vertical- de los armónicos en un instante o intervalo de tiempo de la señal sonora del habla.
•
Análisis de la intensidad y de la estructura formántica (timbre).
•
No es preciso para determinar el valor de los formantes.
Espectro FFT o Spectrum (Fast Fourier Transformation ) •
FILTRO DE BANDA ANCHA •
•
•
•
•
Análisis espectral realizando con una ventana temporal pequeña. Menor cantidad de líneas espectrales para la representación del espectro. Se visualizan zonas de concentración de energía. Mala resolución para los armónicos y componentes del sonido
FILTRO DE BANDA ESTRECHA •
•
•
Análisis espectral realizado con una ventana temporal grande. Mayor cantidad de líneas espectrales para la representación del espectro Buena resolución para los armónicos y componentes del sonido.
5
02-06-2015
Espectro FFT o Spectrum FFT Sonido Armónico Espectro
Forma de onda
FFT
Espectro Discreto
Onda Periódica
Espectro FFT o Spectrum FFT Sonido Armónico Espectro
Forma de onda
FFT
Onda no Periódica
Espectro Continuo
6
02-06-2015
Espectro FFT o Spectrum
Spectrum Voz Normal, fonema /a/, Filtro de banda ancha software PRAAT
Espectro FFT o Spectrum
Spectrum Voz Normal, fonema /a/, Filtro de banda estrecha software PRAAT
7
02-06-2015
Espectrograma •
•
•
Es una representación que nos permite observar la concentración de energía en rango o componentes particulares de frecuencia y la evolución temporal de esta. Representación de las variaciones intensidad –escala de colores o grises- de las frecuencias –eje vertical- con respecto al tiempo – eje horizontal-. Análisis de la duración y estructura formántica, amplitud.
Espectrogramas Espectrogramas de Banda Ancha y Banda estrecha •
•
•
•
•
•
La resolución de un espectro depende del largo de la ventana FFT. Con una buena resolución se pueden observar y medir la F0 y los armónicos. Con una resolución menor, se pueden apreciar mejor los formantes y los pulsos glóticos. A los espectrogramas de buena resolución se les llama de Banda Estrecha. Los de menor resolución se llaman de Banda Ancha. En Praat, una buena resolución o espectro de banda estrecha se obtiene con Windows length = 0,1 segundo. Un espectro de banda ancha se obtiene con Windows length = 0,005 segundos.
8
02-06-2015
Espectrograma
Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda ancha software PRAAT
Espectrograma
Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda estrecha software PRAAT
9
02-06-2015
Espectrograma
Oscilograma y Espectrograma Pólipos, fonema /a/, Filtro de banda estrecha software PRAAT
Espectrograma
Oscilograma y Espectrograma de secuencia vocálica /i, e, a, o, u/ Filtro de banda Ancha software PRAAT
10
02-06-2015
Espectro Promedio a Largo Plazo (LTAS) •
•
•
Long-term Average Spectrum es el espectro promedio de muchos espectros obtenidos durante un cierto intervalo de tiempo, mientras el paciente habla, lee un texto o canta una canción. Es especialmente útil para obtener características tanto de la fuente (cuerdas vocales), como del filtro (tracto vocal). A través del LTAS es posible obtener varias variables relacionadas con la distribución de la energía espectral de la voz, por medio de pendientes espectrales.
Espectro Promedio a Largo Plazo (LTAS)
LTAS “Voz Resonante”
11
02-06-2015
Espectro Promedio a Largo Plazo (LTAS)
LTAS “Voz Opaca”
Espectro Promedio a Largo Plazo (LTAS)
LTAS Voz severamente Disfónica
12
02-06-2015
Espectro LPC •
La LPC (Lineal Predicting Coding) muestra una envolvente del espectro.
•
Facilita la identificación de formantes y su estudio
•
No permite ver los armónicos
•
Se puede graficar de dos formas como corte LPC y como historia formántica
Espectro LPC ) z H /
B d ( l e v e l e r u s s e r p d n u o S
60
40
20 2.205·104
0 Frequency (Hz)
Corte LPC de vocal /a/
13
02-06-2015
Espectro LPC ) z H /
B d ( l e v e l e r u s s e r p d n u o S
60
40
20 2.205·104
0 Frequency (Hz)
Espectro FFT y Corte LPC de vocal /a/ juntos
Espectro LPC
Oscilograma, Espectrograma e Historial Formántica de serie vocálica /i, e, a, o, u/
14
02-06-2015
Análisis de índices acústicos Análisis Acústico de la Voz
Herramientas de Análisis MDVP El Multi-Dimensional Voice Program (MDVP) es un software que trabaja en conjunto con el Computerized Speech Lab (CSL) ambos de la firma KayPENTAX. El MDVP permite la adquisición, análisis y cálculo de más de 33 parámetros de la voz a partir de una vocalización sostenida de un fonema sonoro
15
02-06-2015
Herramientas de Análisis MDVP
Herramientas de Análisis PRAAT •
•
Praat es una herramienta para el análisis fonético del habla desarrollada por Paul Boersma y David Weenink en el Instituto de Ciencias Fonéticas de la Universidad de Ámsterdam. Puede descargarse gratuitamente para varios sistemas operativos desde la página del programa, en la que se encuentra también la documentación necesaria para utilizarlo: http://www.praat.org
16
02-06-2015
Parámetros de Análisis Medidas de Perturbación Jitter
Mide la perturbación o variación del periodo de la frecuencia fundamental entre cada ciclo vocal en una emisión sostenida. Se tolera cierta variabilidad porque es imposible la ausencia de variación tonal. PRAAT nos entrega 5 tipos de Jitter, pero generalmente se utilizan solo dos:
Parámetros de Análisis Medidas de Perturbación •
Jitter (local) •
•
•
Jitter (local, absolute) •
•
•
Es el promedio absoluto de las diferencias entre periodos consecutivos dividido por el periodo promedio (MDVP – Jitt) 1,04 % es el umbral patológico.
Es el promedio absoluto de las diferencias entre periodos consecutivos (MDVP – Jita) 83.200 μs es el umbral para patologías.
Para entender bien el concepto utilizaremos un tono puro.
17
02-06-2015
Parámetros de Análisis Medidas de Perturbación
T=0.01153
T=0.01151
T=0.01154
Parámetros de Análisis Medidas de Perturbación Shimmer
Mide la perturbación o variación de la amplitud entre ciclo y ciclo de fonación. Se presenta como porcentaje de variación de la amplitud entre ciclos o períodos de frecuencia. •
•
Shimmer (local)
Es el promedio de las diferencias absolutas entre la amplitud de periodos consecutivos, dividido por la amplitud promedio. (MDVP – Shim),
•
3.810% umbral patológico.
•
Shimmer (local, dB)
•
•
Es el logaritmo de base 10 del promedio absoluto de las diferencias entre las amplitudes de periodos consecutivos multiplicado por 20. (MDVP – ShdB), 0.350 dB umbral patológico
18
02-06-2015
Parámetros de Análisis Medidas de Perturbación
Parámetros de Análisis HNR (índice armónico-ruido)
Aunque un sonido se produzca por vibración de cuerdas vocales, siempre presenta un componente de ruido en el sonido. En una fonación adecuada, el ruido queda enmascarado. Razón entre la energía del ruido propio de la señal entre 15004500 Hz y las componentes armónicas ubicadas entre 70-4500 Hz La amplitud de los armónicos, múltiplos de la frecuencia fundamental, depende de un correcto cierre de las cuerdas vocales y supone un sonido periódico.
19
02-06-2015
Parámetros de Análisis HNR (índice armónico-ruido)
Ruido es toda señal que contamina la emisión vocal y que es solo aire o energía no armónica que se puede producir por flujos turbulentos de aire producto del cierre parcial de las cuerdas vocales al vibrar. Entonces, el índice armónico ruido es la relación entre la energía armónica y la energía del ruido. Valores bajos de este parámetro se pueden asociar a vibraciones irregulares de las cuerdas, presencia de escape de aire, presencia de sub-armónicos y/o quiebres en la voz. Un valor indicador de fonación adecuada es 20 dB o más. Ante la presencia de hiatus, el valor HNR disminuye a valores menores a 20 dB.
HNR (índice armónico-ruido)
DIENTE DE SIERRA + RUDIO BLANCO HNR=30 dB
DIENTE DE SIERRA + RUDIO BLANCO HNR=20 dB
DIENTE DE SIERRA + RUDIO BLANCO HNR=10 dB
20
02-06-2015
Parámetros de Análisis Jitter Shimmer NHR
Estabilidad de la F0 Tiempo de Ataque •
•
Todo sonido presenta un ataque, decaimiento, sostenimiento y decaimiento. Esto se conoce como envolvente del sonido. El ataque es el inicio del sonido vocal. Es representado por la pendiente inicial de intensidad del sonido.
•
Se mide a partir del fonema /a/ como inicio de una palabra.
•
Se propone medir el tiempo de ataque a partir de las palabras “ala”, “árbol”, “amigo”. Con esto se caracterizan distintas
coarticulaciones. •
Entonces, se obtiene el tiempo de ataque promedio.
21
02-06-2015
Estabilidad de la F0 Tiempo de Ataque
Ataque vocal
Estabilidad de la F0 Tiempo de Ataque
Ataque vocal
22
02-06-2015
Clasificación de los tipos de señales de voz. El national center for voice and speech (Titze 1995) sugiere una clasificación de las voces según el grado de perturbación. Lo que permite determinar el tipo de estudio o análisis idóneo para cada caso. •
•
•
TIPO 1: voz con vibraciones casi periódicas. Perturbación
menor al 5%. Puede ser analizada por medio de los parámetros de perturbación a corto plazo (Jitter,Shimmer,HNR). TIPO 2: voces con subarmónicos y modulaciones. Perturbación mayor al 5%. No puede ser analizada de forma fiable con los parámetros anteriores. Debe estudiarse con un método perceptual, un método visual como el espectrograma y caracterización espectral. TIPO 3: voces caóticas o random. Solo pueden ser estudiadas por métodos perceptuales,
23
02-06-2015
Caracterización del espectro vocal LTAS (Long Time Average Spectrum) •
•
•
Espectro Promedio de Largo Plazo. Se obtienen bandas de frecuencia promedio con anchos de banda determinados por el usuario. Se obtiene en un contexto de Habla o Canto según los aspectos que se deseen caracterizar.
•
En un contexto hablado, se sugiere utilizar un texto fonéticamente balanceado.
•
Considera aportes de la emisión laríngea y de las resonancias del tracto.
•
•
Aporta a la discriminación y caracterización de distintos tipos de emisión vocal o mordente. Aporta a la discriminación y caracterización del timbre o color de la voz.
Caracterización del espectro vocal LTAS (Long Time Average Spectrum)
LTAS graficado en bandas de frecuencia (bin) con ancho de banda igual a 178 Hz
24
02-06-2015
Caracterización del espectro vocal LTAS (Long Time Average Spectrum)
LTAS graficado con una curva de interpolación entre los valores de cada bin.
Caracterización del espectro vocal LTAS (Long Time Average Spectrum)
LTAS graficado con una curva de interpolación y bins
25
02-06-2015
Caracterización del espectro vocal Inclinación espectral (Spectral Tilt) •
•
Línea que representa la tendencia o inclinación del espectro LTAS. En términos comparativos, la inclinación espectral nos sirve para comparar distintos timbres de voz.
Caracterización del espectro vocal Inclinación espectral (Spectral Tilt)
26
02-06-2015
Caracterización del espectro vocal •
•
•
•
αR (alfa ratio)
Es la relación entre el nivel de energía promedio que existe entre la banda de 1000 Hz – 5000 Hz y 50 Hz y 1000 Hz. Para una análisis pre y post es necesario controlar la intensidad de la emisión vocal, puesto que diferentes intensidades afectan la anergia de altas frecuencias. En PRAAT se puede obtener la energía por banda de frecuencia a partir de un objeto LTAS. “Un aumento de intensidad no produce un aumento lineal de frecuencia”
Caracterización del espectro vocal H1 – H2 •
•
•
•
•
•
Es la diferencia entre la amplitud del primer armónico (F0) y el segundo armónico. Los valores de amplitud se pueden medir directamente de un espectro simple. También pueden medirse a partir de un LTAS considerando la amplitud del bin 1 y del bin 2. En este último caso, el ancho de banda de cada bin, debe considerar el rango de variación de ambos armónicos. Generalmente, F0 o H1 presenta mayor amplitud. Esto cambia si la voz es estridente.
27
02-06-2015
Caracterización del espectro vocal L1-L0 Es la relación de energía entre las bandas de 300 Hz a 800 Hz y de 50 Hz a 300 Hz. Es una medida del grado de contacto glótico. (Sundberg) Relación entre los armónicos afectados por el primer formante y la energía de F0. Pendiente negativa cuando la voz es soplada. Pendiente positiva cuando la voz es resonante o apretada. Hay que mantener controlada la intensidad. •
•
•
•
•
•
Caracterización del espectro vocal 1K-5K – 5K-8K Es la relación de energía entre las banda de 1 kHz a 5kHz y la de 5 kHz a 8 kHz. Medida de ruido glótico. Pendientes negativas. En voces sopladas menor pendiente (mayor ruido glótico) En voces apretadas mayor pendiente. (menor ruido glótico) •
•
•
•
•
28
02-06-2015
Caracterización de las resonancias Formantes •
•
•
•
•
Son las resonancias del tracto vocal. Se denominan F1, F2, … , FN. En su estudio, se busca realizar una correlación entre aspectos articulatorios (normalidad o trastorno) y las resonancias del tracto vocal. Por los general, para un análisis fonético basta con evaluar F1 y F2. Para analizar el mordiente y el color de la voz, se estudia F3, F4 y F5.
Caracterización de las resonancias Propiedades de los Formantes •
•
•
•
•
•
•
Las formantes varían las amplitudes del espectro del sonido madre, pero no desplazan las frecuencias propias del mismo. Se analizan normalmente entre 3 y 5 formantes. El formante F1 generalmente controla la amplitud del sonido y depende de el grado de apertura del tracto vocal. A mayor apertura, mayor valor frecuencia de F1. El formante F2 depende de la posición del punto articulatorio. Mientras más anterior, mayor frecuencia de F2. El formante F3 depende de las dimensiones de la cavidad que se forme por delante del ápex lingual; cuanto más pequeña, mayor frecuencia de F3. F4 y F5 varían con la anchura y longitud del tracto vocal; cuanto más corto y estrecho el tracto, mayor frecuencia de F4 y F5. Todos los formantes tienen un ancho de banda definido donde se aprecia el fenómeno de resonancia
29