6 UNDAMENTOS F UNDAMENTOS
Y EVALUACIÓN
DE LA VOZ
Marco Guzmán
© Editorial EOS
247
Fundamentos y evaluación de la voz
1. FISIOLOGÍA FONATORIA La laringe participa en muchas funciones que permiten la comunicación y también la mantención de la vida. El propósito de este apartado es describir a la laringe como una válvula parcial o completamente cerrada, capaz de producir fonación. La fonación es determinada por características neuromusculares, biomecánicas, acústicas y aerodinámicas que, a su vez determinan la duración, tono, sonoridad, cualidad, registro vocal y movimientos de los pliegues vocales a través del control en el largo, masa, tensión, contorno de los pliegues vocales, aducción de los aritenóides, presión subglótica y tamaño y forma del tracto vocal.
1.1. Rol de los pliegues vocales en la generación de la señal de la fuente Los pliegues vocales tienen el rol de comenzar la generación de la señal de la fuente. El resto de las estructuras laríngeas son secundarias. Vistas desde arriba, los pliegues vocales parecen dos bandas que se despliegan a través de las vías respiratorias. Están unidos a la parte anterior e interna del cartílago tiroides y cada uno de ellos está además unido a un cartílago aritenoides en la parte posterior de la laringe (Figura 1). Los cartílagos aritenoides son capaces de realizar movimientos complejos causando que los pliegues vocales se contacten (aducción), o se separen (abducción) abriendo las vías respiratorias para la respiración 1.
Figura 1. Pliegues vocales humanos. A la izquierda en abducción (Posición respiratoria), a la
derecha en aducción (Posición fonatoria). (Traducido y adaptado) 83.
El espacio entre los pliegues vocales es llamado glotis. Considerando que los pliegues vocales son móviles, la glotis puede ser muy grande (en abducción completa como ocurre en la inspiración) o incluso llegar a no existir (en aducción como ocurre durante la fonación normal). 1, 2 Si utilizáramos técnicas exploratorias (tales como cámaras de alta velocidad o estro boscopía laríngea) para observar el movimiento de los pliegues vocales durante la fona© Editorial EOS
248
Trastornos del habla: de los l os fundamentos a la evaluación
ción, veríamos movimientos esquematizados como los que se observan en la Figura 2. En la condición inicial, donde los pliegues vocales están en contacto completo (y el tamaño de la glotis es igual a cero), ellos se separan progresivamente hasta que la glotis alcanza su máximo tamaño. Los pliegues vocales, luego regresan a la línea media, cerrando la glotis una vez más. En promedio, en la voz del hombre, este ciclo se repite cerca de 100 veces por segundo, lo que genera una frecuencia fundamental (F0) de 100 Hz. Las mujeres, por otro lado, generan en promedio una F0 de 200 Hz. 3
Figura 2. Ciclo fonatorio, movimiento de los pliegues vocales durante la fonación
1.2. Generalidades de la estructura de los pliegues vocales vocales La imagen en sección transversal de los pliegues vocales muestra que éstos son divisibles básicamente en dos zonas. Esencialmente, los pliegues vocales están construidos sobre la masa del músculo tiroaritenoideo que está dispuesto a lo largo de la laringe (Figura 3). Esta región muscular, que es la que forma la mayor parte de la masa de los pliegues vocales, es llamada cuerpo. La contracción y relajación de este músculo cambia de manera importante el largo, grosor y elasticidad. Estos cambios juegan un rol primordial en la determinación de las características de la señal de la fuente. También el ligamento vocal puede ser considerado parte del cuerpo de los pliegues vocales. 3, 4
Figura 3. Corte
histológico, sección transversal de los pliegues vocales. (traducido) 84.
El cuerpo de los pliegues vocales está envuelto por una capa llamada la cubierta. Su estructura es bastante compleja. La capa supercial de la cubierta está formada por tejido epitelial. Bajo de este epitelio hay una malla de bras que de alguna manera se asemeja
© Editorial EOS
Fundamentos y evaluación de la voz
249
a una banda elástica (lámina propia). Esta estructura está particularmente bien formada cerca del borde de la porción superior del pliegue vocal, donde se constituye el ligamento vocal. Esta estructura tiene propiedades mecánicas inherentes bien denidas, pero dife rentes al cuerpo de los pliegues vocales, estas propiedades no pueden ser alteradas normalmente. La cubierta está unida de una forma relativamente suelta al cuerpo. Similar a la piel en la parte posterior de la mano, es parcialmente libre para ser deslizada sobre las capas inferiores del cuerpo de los pliegues vocales. 4
1.3. Eventos del ciclo glótico Para que se inicie la fonación debe haber cierta cantidad de aire presurizado en los pulmones. Esta presión debe ser ser cercana a los 7 cm de H 2O (valor típico). 5 En la Figura 4 se observan los pliegues vocales mostrados esquemáticamente en su sección transversal.
Figura 4. Esquema de los pliegues vocales en sección transversal durante la fonación (Traducido) 85
Al comienzo del ciclo fonatorio, los pliegues vocales están juntos. Note que la sección de área transversal es una porción con una supercie plana arriba y sección inferior con
cierto grado de inclinación. 2,3 En este estado, se dice que la glotis está convergente. Se caracteriza por un estrechamiento hacia la parte superior, desde un extremo inferior relativamente amplio. La aproximación de los pliegues vocales cierra las vías respiratorias y por lo tanto no hay ujo de aire. Toda la presión del aire en los pulmones actúa sobre la supercie inclinada de las paredes glóticas. Esta presión tiende a empujar a los pliegues
vocales hacia afuera y la separación aumenta a medida que la presión incrementa. Finalmente, la presión fuerza la separación hasta la supercie superior de los pliegues vocales
y así aparece el espacio glótico.
5
El hecho de existir un ujo de aire a través de la estrecha constricción glótica, implica
que la presión de aire dentro de la glotis debe ser menor que la presión de aire arriba o de bajo de ésta. Esta presión presión negativa relativa produce el efecto efecto de succión de los márgenes márgenes inferiores de los pliegues vocales (efecto de Bernoulli), llevándolos hacia la línea media. 2, 3 Además, considerando que las paredes de los pliegues vocales han sido empujadas hacia los costados durante el proceso de apertura, esto trae como resultado que ellas ahora intentarán regresar a su posición de reposo (línea media). Por lo tanto, el ciclo prosigue, los márgenes inferiores han comenzado su retorno hacia la línea media, mientras que los márgenes superiores aún están separados. 2, 3 En este punto, un nuevo efecto comienza a producirse. La porción superior de los pliegues vocales contiene el ligamento vocal (estructura altamente elástica). A medida que los bordes de los pliegues vocales son empujados hacia lateral, el ligamento vocal © Editorial EOS
250
Trastornos del habla: de los fundamentos a la evaluación
es estirado más y más. Como una banda elástica, a medida que es estirada, mayor será la tendencia de ésta a regresar a su forma inicial. Luego de un momento, estas fuerzas de restauración comienzan a superar la fuerza de la presión de aire que separa los pliegues vocales. La porción superior de los pliegues vocales entonces comienza a moverse hacia la línea media. Finalmente la glotis restaurará su posición original cerrada y el ciclo está listo para ser repetido otra vez. 3 Es importante considerar que el movimiento de los pliegues vocales es guiado por la combinación de fuerzas aerodinámicas (presión pulmonar y efecto de Bernoulli) y las propiedades elásticas de los tejidos. Por lo tanto, el mecanismo recientemente descrito es comúnmente llamado modelo mioelástico-aerodinámico de la fonación. Es interesante ver que los márgenes superiores e inferiores de los pliegues vocales no se mueven en sincronía. La parte inferior está siempre más adelantada en sus movimientos que la parte superior. Esto comienza con la separación de la zona inferior y luego con el retorno más temprano hacia la línea media. Esto se conoce formalmente como la diferencia de fase vertical, la cual es crucial para el mantenimiento de la fonación normal. 2 La clave del movimiento de los pliegues vocales está en el desplazamiento de la cubierta móvil de éstos y los cambios en su forma. La ondulación de la cubierta crea la onda mucosa que puede ser vista en su supercie superior durante el examen de videoestroboscopía larín gea (Figura 5). Sin la cubierta de los pliegues vocales, la fonación no podría ser posible. 1
Figura 5. Onda mucosa de los pliegues vocales a través de la videoestroboscopía laríngea
1.4. Producción de la onda glótica La señal de la onda glótica es descrita como un ujo de aire a través de la glotis (es pacio entre los pliegues vocales). Este ujo es conducido por la presión de aire en los pulmones, el ujo se incrementa de manera relativamente gradual, alcanza su pico máxi-
mo, y luego disminuye abruptamente hasta que cesa. Luego de una pausa corta, el mismo patrón se repite. Este patrón de ujo es llamado onda glótica (Figura 6).
© Editorial EOS
251
Fundamentos y evaluación de la voz
Figura 6. Dos ciclos sucesivos de ujo glótico. El ujo aumenta hacia arriba en forma vertical 86.
El corte rápido del ujo es particularmente importante, porque éste determina el mate rial en bruto para la producción del sonido vocal. El corte relativamente abrupto del ujo
de aire que caracteriza a la onda glótica crea el mismo efecto en el tracto vocal (boca, laringe, faringe). Un impulso es producido, el cual excita la vibración de las moléculas de aire en el tracto vocal. Esa excitación es la voz en un estado no renado.
3, 6
La velocidad con que ocurren estos impulsos determina la frecuencia fundamental (F0) de la voz y es medida en Hertz (Hz). El tiempo que transcurre entre dos ciclos es llamado periodo, el cual es medido en milisegundos. Como cualquier onda compleja (como los im pulsos que la laringe entrega al tracto vocal) es compuesta por una serie de tonos puros (armónicos), por lo tanto la señal de la fuente glótica entrega una variada gama de frecuencias, las cuales pueden ser seleccionadas por el tracto vocal creando la señal de la voz nal. 3, 6
Esta gama de frecuencias es descrita como el espectro de la voz. El componente frecuencial más bajo es la frecuencia fundamental y el resto de los componentes frecuenciales son llamados sobretonos. La frecuencia fundamental más los sobretonos constituyen todos los parciales de la voz. Todos ellos juntos forman una serie armónicos. El parcial más bajo es la frecuencia fundamental. El resto de los otros parciales son múltiplos enteros de la frecuencia fundamental (Figura 7).
Figura 7. Gama de frecuencias en el espectro de la voz humana
© Editorial EOS
252
Trastornos del habla: de los fundamentos a la evaluación
1.5. Control de la frecuencia fundamental, intensidad y tiempo de fonación La frecuencia fundamental (F0), la intensidad y el tiempo de fonación, son tres de los parámetros más importantes que pueden ser modicados en la voz. Estos cambios son importantes en el habla y más aún en el canto. Otro parámetro importante es el timbre de la voz. Perceptualmente hablando, estos parámetros corresponden al tono, la sonoridad, la cualidad vocal. Cada uno de estos elementos tiene varias variables de control biomecánico.
1.6. Control de la frecuencia fundamental La percepción del tono, corresponde a la medida física de la frecuencia fundamental y registro vocal. 5 En términos generales, ambos aspectos son altamente dependientes del largo de los pliegues vocales 7, 8 y asociados con la tensión de la cubierta de éstos. 9, 3 La frecuencia fundamental a su vez corresponde al número de ciclos por segundo del movimiento glótico durante la fonación. En la fonación normal, el movimiento de los pliegues vocales es similar de un ciclo a otro, produciendo que los periodos glóticos sean por lo tanto también similares. Cada ciclo fonatorio libera aire a través del ujo glótico, el cual es el encargado de
generar el sonido. En la fonación normal, la excitación acústica es creada a través de la variación del ujo. La Figura 8 muestra dos ciclos del ujo glótico. El periodo T, el cual es de 10 ms (por lo tanto la F0 es igual a 100 Hz). La velocidad de ujo glótico (en litros
por segundo) comienza a excitar la glotis gradualmente, se eleva hasta un punto máximo, y luego cesa de una forma relativamente abrupta. El aire excita la glotis desde el punto A hasta el punto B durante el movimiento lateral y luego medial de la parte membranosa de los pliegues vocales. La glotis está cerrada, o casi cerrada entre los puntos B y C. La cantidad de aire durante este intervalo corresponde a la perdida de aire que ocurre cuando los cartílagos aritenoides están separados en algún grado. 10
Figura 8. Forma de onda del ujo glótico (arriba). Derivada de la forma de onda de ujo glótico (abajo).
© Editorial EOS
253
Fundamentos y evaluación de la voz
La parte inferior de la Figura 8 es la derivada del tiempo de la señal de ujo glótico.
En cualquier momento del tiempo, el valor en la línea inferior es igual a la pendiente de la señal de la velocidad de ujo en ese momento. El cambio más rápido de velocidad de ujo ocurre en el punto D, que corresponde al punto M de la derivada. El punto M es el
momento del tiempo en donde ocurre la mayor excitación acústica. 11, 12 La percepción del tono de la voz puede ser afectada por la existencia de inconsistencias entre ciclos consecutivos durante la fonación. 5 El tiempo entre excitaciones acústicas primarias de un ciclo a otro varía levemente durante la fonación normal, ayudando a crear una cualidad de voz normal y la percepción de un solo tono. Sin embargo, la variación del periodo se puede incrementar si existen anormalidades en los tejidos de los pliegues vocales tales como inamación, nódulos, pólipos y rigidez, causando inconsistencia en el ujo glótico y en la vibración de un ciclo a otro. En f orma consecutiva, estas variaciones en los periodos pueden también crear un ujo turbulento de aire a través de la glotis, pro-
duciendo una cualidad de voz soplada y agregando ruido a la señal acústica.
5
La percepción del tono y de la cualidad vocal también puede ser afectada por cambios que ocurren sobre periodos de tiempo más largos que un ciclo fonatorio. La diplofonía (existencia de dos tonos simultáneos) 13 y los subarmónicos (divisores enteros de la frecuencia fundamental) se producen por modulaciones múltiples de la señal de ujo glótico
(Figura 9). 14-17
Figura 9. Espectrograma voz patológica con presencia de subarmónicos. Se observa en algunos
segmentos un subarmónico entre dos armónicos.
El tono puede ser también alterado por congestión de uidos (edema). La explicación
común para la caída del tono en personas con edema es que masas más grandes producen frecuencias fundamentales más bajas. 18 © Editorial EOS
254
Trastornos del habla: de los fundamentos a la evaluación
1.7. Cambios biomecánicos que afectan la frecuencia fundamental Cambiar la frecuencia fundamental implica una variación de la velocidad en que la onda mucosa se repite. La forma más eciente para hacer esto es modicando las propie dades mecánicas de los pliegues vocales (aunque veremos más adelante que también es posible cambiar la F0 alterando la presión de aire). 3, 6 Antes de hablar directamente de los mecanismos que controlan la F0, recordaremos algunos aspectos básicos anatómicos relacionados con este proceso. Los pliegues vocales se estiran desde los cartílagos aritenoides (los cuales están anclados a la parte posterior del cartílago cricoides) en la parte posterior, a la pared interna del cartílago tiroides en la parte anterior (Figura 10). El cartílago tiroides se articula con el cartílago cricoides de tal forma que puede girar. El músculo cricotiroideo que se extiende sobre el espacio entre los cartílagos tiroides y cricoides en el frente (Figura 11). Cuando este músculo se contrae acerca a ambos cartílagos causando un movimiento en báscula del cartílago tiroides hacia abajo. Además el cartílago tiroides se desliza hacia adelante en cierta medida. Note que el efecto de estos cambios es incrementar la distancia desde el cartílago aritenoides a la parte interna del cartílago tiroides. Considerando que los pliegues vocales deben cubrir el espacio entre los aritenoides y el tiroides, al incrementar esta distancia, se estiran los pliegues vocales haciéndose más largos.
Figura 10. Ubicación anatómica de los pliegues vocales 87.
Figura 11. Músculo cricotiroideo88.
© Editorial EOS
Fundamentos y evaluación de la voz
255
Estos cambios causan importantes modicaciones en el ciclo glótico. Primero, si los pliegues vocales son más largos tendrán una supercie más grande para la presión de aire
debajo de ellos. Esto en esencia produce que la presión sea más efectiva al separar los pliegues vocales durante la fase de apertura del ciclo glótico. Los pliegues vocales, por lo tanto, se separan más rápido, acortando la duración del ciclo. 2, 7 El resultado será entonces un ritmo de repetición más rápido y por lo tanto una F0 mayor. Además, el hecho de alargar los pliegues vocales implica que las bras elásticas de la cubierta y en particular
las del ligamento vocal son estiradas. El ligamento vocal es como una banda elástica, que al estirarlo produce el mismo resultado, la mayor rigidez genera que el regreso hacia la posición de reposo sea más rápida después de haber sido separados. Por lo tanto, una vez que los pliegues vocales han sido separados, ellos retornan más rápidamente hacia la línea media, por lo tanto al incrementar la rigidez de la cubierta de los pliegues vocales (debido a la contracción del músculo cricotiroideo) también produce un acortamiento del ciclo glótico contribuyendo al aumento de la F0. 2, 3, 7 La frecuencia fundamental es también dependiente de la actividad del músculo tiroaritonoideo (el cuerpo de los pliegues vocales). 19, 20 Este músculo actúa antagonistamente al cricotiroideo en relación al cambio del largo de la cubierta de los pliegues vocales. 19, 21 Por lo tanto, si solo la cubierta está vibrando, como ocurre en la fonación suave en de tonos altos, un incremento en la contracción del musculo tiroaritenoideo debería acortar y reducir la tensión de la cubierta mucosa, y por lo tanto bajar la frecuencia fundamental. Sin embargo, si el músculo tiroaritenoideo participa en el movimiento de los pliegues vocales de manera signicativa, como ocurre en la fonación de alta intensidad y fonación
con baja frecuencia fundamental, un incremento en la actividad de este músculo incrementará la tensión efectiva de todos los tejidos en movimiento como efecto primario, y por lo tanto subirá la frecuencia fundamental. 19, 21 El efecto del cambio de la frecuencia fundamental relacionado con la participación muscular del tiroaritenoideo, conceptualmente depende de la cantidad relativa del musculo participando en la masa vibratoria, la tensión dentro la porción de masa en movimiento del tiroaritenoideo y de la actividad relativa del mismo músculo. 19 La tensión de la cubierta de los pliegues vocales puede ser cambiada (y por lo tanto también la frecuencia fundamental) por ajustes externos que afectan el largo de los pliegues vocales. El hecho de tirar el hueso hioides hacia anterior por los músculos suprahioídeos puede ayudar a la inclinación del cartílago tiroides hacia adelante, hacia la posición donde el borde inferior se acerca al borde superior del cartílago cricoides (similar a la función del músculo cricotiroídeo), por lo tanto incrementa el largo de los pliegues vocales y esto a su vez sube la frecuencia fundamental. 22 Además, es posible que el cartílago cricoides pueda ser inclinado hacia abajo y en la zona posterior, acortando el largo de los pliegues vocales producto de un tiramiento traqueal inferior. Esto se produciría por un descenso del diafragma con niveles altos de volumen pulmonar (o por co-activación del diafragma durante la fonación), induciendo a un descenso del tono, a menos que sea compensado por un aumento de la actividad del músculo cricotiroideo. 22
© Editorial EOS
256
Trastornos del habla: de los fundamentos a la evaluación
1.8. Cambios aerodinámicos que afectan la frecuencia fundamental La frecuencia fundamental no solo cambia por factores biomecánicos, sino que además por modicaciones aerodinámicas. De hecho, la modicación de la presión de aire
que conduce al ciclo glótico produce cambios en la F0. Al aumentar la presión subglótica se produce un incremento de la intensidad vocal, y al mismo tiempo existe una tendencia al incremento de la F0. Los fundamentos de este efecto no son totalmente conocidos, pero Titze 3 ha propuesto una hipótesis que es muy posible. Esta hipótesis se relaciona con la distancia que se produce cuando existe una alta presión de aire entre el borde de los pliegues vocales y la línea media. Muchos experimentos han demostrado que la F0 cambia cerca de 3 o 6 Hz por cada cm de H2O de presión. 23, 24 Para el habla conversacional, este cambio de frecuencia no es muy signicativo. Sin embargo, considerando que al subir la
intensidad también sube la F0, esto tiene una clara importancia en los cantantes, quienes tendrán que compensar de alguna forma. 1, 10 La presión de aire empujando en contra de la supercie inferior mueve los pliegues
vocales lateralmente y también algo hacia arriba. 10 La extensión lateral de la excursión depende de la cantidad de presión subglótica y del largo de los pliegues vocales. Por lo tanto, cuando existe un largo antero-posterior constante de la glotis, una presión subglótica mayor empujará a los pliegues vocales con una mayor extensión, creando un estiramiento máximo mayor que en presiones subglóticas menores. Estiramientos máximos mayores producen una tensión efectiva mayor y por lo tanto una frecuencia fundamental más alta. 10 Los cambios de la prosodia o melodía del habla durante la conversación son causados por una combinación del estiramiento pasivo de los pliegues vocales provocados por la acción del músculo cricotiroideo y la presión subglótica. 24, 25
1.9. Control de la intensidad y cualidad vocal La sonoridad y la cualidad de la voz son correlatos perceptuales de la intensidad y del espectro acústico respectivamente. 26, 5, 27, 28 Ambas percepciones dependen de las características de la forma de la onda de velocidad de ujo glótico y de las estructuras de
resonancia del tracto vocal. En este apartado solo se verá los aspectos relacionados con la fuente (pliegues vocales). La intensidad vocal es una función de la cantidad de excitación que las ondas glóticas entregan al aire en el tracto vocal. Es fácil ver que si todo el resto permanece constante, a mayor amplitud de la onda glótica, mayor será la excitación del tracto vocal y por lo tanto la señal vocal tendrá mayor intensidad. Al subir la presión de aire aumenta el aire que es empujado a través de la glotis cuando ésta es abierta. Esto produce una onda de ujo glótico más alta. Por lo tanto, al incrementar la presión pulmonar aumenta la intensidad vocal. 1, 10 Sin embargo, se señaló antes que la repentina cesación del ujo glótico es la primera responsable de poner el aire del tracto vocal en vibración acústica. Mientras más abrupto es el corte de ujo, mayor será la excitación del tracto vocal y más intensa será la señal
© Editorial EOS
Fundamentos y evaluación de la voz
257
vocal. Una intensidad vocal mayor, es de hecho, asociada una abrupta fase de cierre del ciclo glótico. Este efecto el logrado no solamente por la alta presión, sino que también por cambios voluntarios en la biomecánica de los pliegues vocales que tienden a resistir el incremento del ujo de aire que la alta presión produce. En consecuencia, la intensidad
es producida por una interacción regulada de la presión de aire y una resistencia glótica al ujo de aire incrementada. 1, 10
A nivel glótico, la variación de la cualidad vocal está controlada primariamente por el cierre de los pliegues vocales (aducción) y esto está relacionado con la percepción de voz normal, soplada o apretada. La voz soplada ocurre cuando los pliegues vocales están levemente abducidos de forma tal que ellos no cierran completamente durante cada ciclo vibratorio, permitiendo que parte del volumen de ujo glótico no sea modulado y resulte
en turbulencia. 29 Una voz soplada también puede ser producida por un cierre completo de los pliegues vocales en la parte anterior (anterior a los procesos vocales de los aritenoides), pero con una glotis abierta en la zona posterior, permitiendo la creación de aire turbulento entre los cartílagos aritenoides. Si existe una hiperaducción de los pliegues vocales, pero con una apertura importante a nivel posterior, se produce una cualidad de voz soplada-apretada. 30 La cualidad de voz apretada sin soplo es la consecuencia de una aducción glótica completa, con una cantidad muy pequeña de aire que uye entre los
pliegues vocales. 26 La Figura 12 muestra una forma de onda típica de la velocidad de ujo glótico en un
registro modal y su correspondiente movimiento glótico. La forma general de la onda de ujo glótico muestra que el ujo típico comienza más gradualmente en comparación con lo que ocurre cuando éste está cesando, y que el ujo máximo es producido después del momento en que ocurre la máxima área glótica. Esta característica retardada del ujo (o
inclinación relativa hacia la derecha del área glótica) está relacionada con la inertancia de la columna de aire del tracto vocal, el movimiento de las paredes glóticas y la forma glótica. El efecto de la inertancia se reere a que el aire dentro del tracto vocal tiene masa.
Cuando la glotis recién se abre, el aire (que es conducido por la presión transglótica = diferencia entre presión subglótica y presión supraglótica) se mueve a través de la glotis para encontrarse con la columna de aire del tracto vocal. El aire que viene a través de la glotis literalmente mueve el aire que está dentro del tracto vocal, y esto enlentece el movimiento de aire que salió inicialmente de la glotis. 33 Correspondiente a este evento, ocurre un incremento de la presión de aire justo arriba de la glotis a medida que el aire se mueve a través de ésta hacia el aire que está arriba, produciendo una reducción de la caída de la presión de aire transglótico. 34, 35 Si el tracto vocal fuese un tubo uniforme, se crearía 31, 32
una mayor inclinación de la forma de onda del ujo glótico producida por una mayor
inertancia creada por un alargamiento del tracto vocal (ya sea descendiendo la laringe o protruyendo los labios) o por estrechamiento del área de sección transversal. 35, 36
© Editorial EOS
258
Trastornos del habla: de los fundamentos a la evaluación
Figura 12. Forma de onda ujo glótico y su correlación con el movimiento de los pliegues vocales.
Adicionalmente, se ha visto que la mínima resistencia glótica puede ocurrir cuando la glotis crea una forma más difusa de un ángulo pequeño, lo cual es altamente probable que ocurra justo después del momento de máxima área glótica. Por lo tanto cuando la glotis adopta esta forma difusa, la resistencia al ujo puede ser menor que cuando ocurre la máxima apertura glótica, y por lo tanto un mayor ujo transglótico podría ocurrir para ayudar a la inclinación relativa hacia la derecha de la forma de onda de ujo glótico. 10 Cuando existe una mayor inclinación, acústicamente esto se relaciona con una mayor energía en los armónicos altos del espectro de la voz y por lo tanto existe una percepción de voz más brillante y más sonora. Las cualidades de la voz dependen de la forma de la onda de ujo glótico. Espectralmente, la cualidad de voz soplada tiene primariamente mayor energía en los primeros dos parciales, mientras que en las cualidades de voz normal y apretada, la energía está distribuida en los armónicos de alta frecuencia. Por esta razón en las voces sopladas la pendiente espectral es relativamente abrupta (Figura 13), mientras que en las voces normales y apretadas la pendiente es menos inclinada (Figura 14). 10
Figura 13. Espectro voz soplada con pendiente espectral general abrupta y dos primeros
armónicos con predominio de energía
© Editorial EOS
259
Fundamentos y evaluación de la voz
Figura 14. Espectro voz normal con pendiente espectral general gradual y energía más
concentrada en armónicos de alta frecuencia.
La intensidad total o nivel de presión de sonido de la voz puede incrementar con el aumento del cambio de la máxima velocidad de ujo transglótico (corte de ujo) que corresponde al valor M mostrado en la Figura 8 30, 37 Esta máxima velocidad de cambio del ujo glótico corresponde también a la máxima pendiente negativa o a la máxima des aceleración del ujo transglótico. Pendientes más abruptas en el ujo producen el efecto
espectral de incrementar la energía de los parciales de la región del primer formante, usualmente la porción más importante para la intensidad total de la voz. 37 Es importante también destacar algunos otros efectos espectrales relacionados con las diferencias en la onda de ujo glótico. La cantidad de tiempo que la forma de onda
muestra el aire excitando la glotis (desde el punto A al B en la Figura 8) dividido por el periodo del ciclo (desde el punto A al C) es llamado cociente de apertura. El cociente de apertura comúnmente disminuye cuando cambia la aducción desde una cualidad de voz soplada a una normal y además ocurre un incremento en la intensidad de la voz. 38 Cuando el cociente de apertura tiende a disminuir podría haber una pequeña reducción (pocos dB) en la intensidad de la frecuencia fundamental y posiblemente un pequeño incremento de la intensidad del primer sobretono (una octava arriba de la F0). 10 También mientas mayor es la amplitud de la forma de onda del ujo glótico (o un área más grande bajo la forma de onda), mayor es la amplitud de la frecuencia fundamental. 10 Cuando el ujo ha casi com pletado su corte, es decir cuando el ujo casi ha alcanzado la línea de base justo antes del
cierre glótico, hay una esquina de corte. La brusquedad del corte está relacionada con la energía generada en los armónicos de la voz. 10 Un cambio desde una esquina redondeada a una esquina muy abrupta puede causar un incremento en la energía de los sobretonos de hasta 10 a 20 dB y por ende afectar la cualidad de la voz 10 (cambiando la aducción glótica desde una cualidad de voz soplada a una normal puede producir una esquina más abrupta de manera considerable). La intensidad y espectro del ujo glótico son dependientes de la presión de aire
subglótico y la frecuencia fundamental. A medida que la presión de aire incrementa con un nivel de aducción constante, el ujo máximo a través de la glotis es mayor. Esto es
© Editorial EOS
260
Trastornos del habla: de los fundamentos a la evaluación
causado por la mayor separación glótica que es creada cuando la presión subglótica es incrementada. A medida que el valor máximo de ujo glótico incrementa, el nivel de
intensidad de la frecuencia fundamental crece. 30 Adicionalmente, un incremento en la presión suglótica puede causar que los pliegues vocales regresen más rápido a la línea media, luego una mayor excursión lateral, creando un corte del ujo más abrupto cerca
de la línea de base, produciendo un aumento de la energía espectral. Por lo tanto, una presión subglótica mayor puede contribuir a incrementar el pico del ujo, aumentando la derivada del ujo máximo y haciendo la esquina de corte de ujo cerca de la línea de
base más abrupta. Estos efectos cambian la forma del espectro incrementando el nivel de intensidad de la frecuencia fundamental e incrementando la intensidad de los sobretonos, por lo tanto subiendo la intensidad total de la voz. 39 La intensidad de la voz también es fuertemente afectada por la frecuencia fundamental. El poder acústico aumenta 6 dB cada vez que la F0 sube una octava, causado por un incremento en la derivada del ujo máximo al subir la F0
1.10. Control de la duración de la fonación La duración se reere a la cantidad de tiempo en que los pliegues vocales oscilan
durante la creación de sonido. En una laringe normal, la aducción es una de las dos principales variables para la duración. Los pliegues vocales deben estar lo sucientemente
juntos como para permitir la oscilación. La presión del aire subglótico es también necesaria para proveer de fuerza suciente para mover los pliegues vocales al comienzo de cada
ciclo vibratorio. Luego que la fonación haya comenzado, ésta debe cesar, en este acto los aritenoides se separan (abducen), o se juntar aún más apretadamente (mayor aducción). Ambos casos producen una cesación de la fonación si el grado de abducción o aducción es lo sucientemente grande. Otras formas para causar la cesación de la fonación son el
descenso de la presión subglótica o la imposición de presión de aire en el tracto vocal so bre la glotis, hasta que la presión cae a través de la glotis (presión trasglótica) a un grado tan bajo que es imposible mantener la fonación. 10 Desde el punto de vista de la aducción, la duración de la fonación depende del potencial de los pliegues vocales para ser puestos dentro del rango de aducción fonatoria y de la cantidad de tiempo en que los pliegues vocales están ubicados en ese rango. Para descontinuar la fonación, los cartílagos aritenoides pueden ser congurados para producir
una sobre compresión, o de forma alternativa una abducción. 10 La fonación requiere una cantidad mínima de presión subglótica para poner a los pliegues vocales en vibración (umbral de presión de la fonación) 38 y luego para mantener la fonación. Si los pliegues vocales están ubicados dentro del rango fonatorio, la presión subglótica se coordina con las características de los tejidos de los pliegues vocales (rigidez, masa y amortiguación) para causar que ellos comiencen el ciclo vibratorio. 38 En términos generales, la creación y duración de la fonación dependen de cuan cerradas estén los pliegues vocales y de la cantidad de presión transglótica (presión subglotica © Editorial EOS
Fundamentos y evaluación de la voz
261
menos presión supraglótica). Para parar la fonación, los pliegues vocales pueden estar sobre aducidos, sobre abducidos, o la presión trabsglótica puede ser descendida a través de la disminución de la presión subglótica o el aumento de la presión supraglótica por medio de una oclusión supraglótica. Los cuatro métodos son utilizados en la producción normal del habla. Estos mecanismos de cese de la fonación pueden ser comprometidos potencialmente por alguna disfunción de los aritenoides, alteración respiratoria o articulatoria. También una aducción anormal puede ser causada por alteraciones o cambios en los tejidos de los pliegues vocales. 10, 40
2. EVALUACIÓN OBJETIVA DE LA VOZ La evaluación funcional de la voz es el proceso mediante el cual el fonoaudiólogo valora cada uno de los parámetros de la voz. Como resultado de este proceso se obtiene una visión del estado de la voz del paciente. Para llevar a cabo la evaluación vocal, el clínico debe aplicar diferentes pruebas y procedimientos con el objeto de valorar cada uno de los elementos que intervienen en la producción de la voz hablada y cantada. Estos elementos se evalúan en gran parte a través de valoración perceptual auditiva, palpación y observación visual, lo que convierte a este tipo de evaluación en subjetiva. A pesar que la evaluación perceptual es importante y nunca debería ser eliminada del proceso de evaluación de la voz, es conveniente complementar esta evaluación funcional con el uso tecnología que permite objetivar las medidas vocales. Algunos de los instrumentos utilizados en el proceso de valoración objetiva de la voz son el análisis acústico, la electroglotografía y las medidas aerodinámicas de la fonación.
3. MEDIDAS AERODINÁMICAS DE LA FONACIÓN 3.1. Introducción Las medidas aerodinámicas de la fonación constituyen un método clínico de evaluación funcional para obtener información acerca de la función vocal de forma no invasiva. Estas medidas son consideradas objetivas, conjuntamente con el análisis acústico de la voz y la electroglotografía. Para entender cuáles son las medidas aerodinámicas de la fonación y cómo interactúan entre ellas, se recordará en forma general el proceso de producción de la voz a nivel glótico. La voz es producida cuando la presión subglótica de aire, generada por un volumen pulmonar de aire exhalado, excede la resistencia de los pliegues vocales que están aducidos, causando que éstos sean activados y así a su vez causar un ujo de aire que los
pone en oscilación. Cuando los pliegues vocales oscilan, se emiten pulsos de aire desde la glotis para generar la energía acústica, la cual entra posteriormente al tracto vocal y es nalmente percibida como voz cuando ocurre el proceso de radiación hacia la atmosfera. 41 Esta breve descripción del proceso de fonación muestra de manera implícita que elementos como el volumen de aire, la presión de aire, ujo de aire y la resistencia a este
© Editorial EOS
262
Trastornos del habla: de los fundamentos a la evaluación
ujo tienen un rol primordial en la producción de la voz. A partir de estos elementos siológicos se describen las medidas aerodinámicas de la fonación utilizadas en la eva luación funcional de la voz: presión, ujo y resistencia. Estas medidas son a menudo llamadas también medidas siológicas ya que están directamente relacionadas con las
características de válvula de los pliegues vocales, incluso más que los datos entregados por el análisis acústico de la voz o electroglotografía.
3.2. Flujo La medida de ujo de aire, a su vez se divide en dos parámetros: el volumen de ujo y el promedio de velocidad de ujo. El volumen de ujo es la cantidad total de aire utilizada
durante una tarea de habla y es medido en litros (lt) o mililitros (ml). Cuando el volumen es medido durante la producción de una fonación sostenida al máximo de tiempo posible, es llamado volumen fonatorio. Para medir el volumen fonatorio, el paciente debe tomar la inspiración más profunda posible y luego sostener lo más establemente posible una vocal. En adultos, el volumen fonatorio normal es de 1500-4000 ml, dependiendo del género y talla del paciente. 42, 43 Este parámetro permite estimar la capacidad de suministro de aire para la voz y el habla. El segundo parámetro es el promedio de la velocidad de ujo, el cual es denido
como la velocidad con que el aire pasa entre los pliegues vocales durante la fonación y es medido en litros por segundo (l/seg) o mililitros por segundo (ml/seg). El promedio de la velocidad de ujo también puede ser denido como el volumen de ujo en litros dividido
por el tiempo máximo de fonación en segundos. El promedio normal para este parámetro se encuentra entre 80 y 200 ml/seg. 42, 43 Considerando aspectos siológicos y de rehabili tación vocal, el promedio de velocidad de ujo tiene mayor importancia que el volumen de ujo ya que el primero está íntimamente ligado con las características de válvula de la
laringe, y por lo tanto con el grado de aducción de los pliegues vocales. El ujo de aire es medido con un instrumento llamado neumotacómetro (medidor de velocidad de aire). Las grabaciones o toma de muestras de este ujo son realizadas a la
salida de las vías respiratorias (boca) con una máscara puesta sobre la cara del paciente (Figura 14). El neumotacómetro usa el principio de presiones diferenciales a través de una resistencia conocida para estimar la velocidad de ujo de aire. Este dispositivo es
esencialmente un tubo con una resistencia mecánica (una malla por ejemplo) en su interior. A medida que el aire pasa por el tubo y a través de la resistencia, las presiones diferenciales son medidas. 44 Esta medida está basada en la Ley de Ohm que será explicada más adelante. La máscara puesta en la cara del paciente debe ir rmemente cerrada para
evitar perdida de aire y por lo tanto un error en el cálculo. Sin embargo, este cierre crea la sensación de presiones hacia atrás y un cambio en el timbre percibido por el paciente. Esto provoca, a menudo, que el paciente cambie las características de si voz y por lo tanto las medidas obtenidas no sean representativas de su voz en condiciones regulares. Por esta razón se aconseja instruir al paciente en producir una voz natural y cómoda durante la realización de la maniobra. 44, 45 © Editorial EOS
Fundamentos y evaluación de la voz
263
Figura 15. Equipo para la realización del examen de las medidas aerodinámicas de la fonación.
Durante la producción de la voz, el ujo de aire que pasa a través de la laringe está so metido a rápidas variaciones o cambios provocados por la vibración de los pliegues vocales. Este ujo es de interés clínico porque revela información relacionada con la naturaleza de la función vocal en la generación de la fuente de excitación laríngea hacia las cavidades faríngea y oral. El contenido espectral de la fuente de la voz es a menudo derivado como un reejo de la naturaleza de los pulsos de ujo en cada ciclo de vibración de los pliegues vocales. 42, 43, 44
Los pacientes con hiperfunción glótica severa (hiperaducción) o fonación con vocal fry pueden presentar promedios de velocidad de ujo muy bajos (10-15 ml/seg). Pa cientes con incompetencia glótica (hipoaducción) pueden presentar valores muy altos (400-600 ml/seg. La Figura 16 graca los modos de fonación señalados. Pacientes con alteraciones de origen neurológico pueden mostrar un ujo irregular e inestable. 42, 43 La Figura 17 muestra las medidas de ujo glótico antes y después de una terapia vocal.
Figura 16. Este gráco muestra como el ujo de aire transglótico (línea gris) aumenta desde
una fonación apretada (izquierda), pasando por una fonación normal (tercio medio) y llegando a una fonación soplada (tercio derecho). A medida que disminuye la resistencia (aducción) de los pliegues vocales, el ujo de aire incrementa entre ellos.
© Editorial EOS
264
Trastornos del habla: de los fundamentos a la evaluación
Figura 17. Grácos representativos de la disminución de la velocidad de ujo después de la terapia vocal. A la izquierda (pre-terapia) se ve un mayor ujo que en el gráco de la derecha (post-terapia).
3.3. Presión 3.3.1. Presión subglótica La presión, en términos físicos, es denida como la fuerza por unidad de área, ac -
tuando perpendicularmente en esta área. En el caso de la fonación, la presión subglótica (medida en cm de H2O) actúa como una fuerza debajo de los pliegues vocales, subiendo hasta que supera la resistencia que éstos oponen y dando comienzo así a la oscilación. 46 La presión subglótica es la energía disponible para la creación de la señal acústica de la voz. En sujetos normales, la presión subglotica necesaria para una fonación a intensidad conversacional es entre 5 y 10 cm de H 2O. 42, 45-47
3.3.2. Umbral de presión de la fonación Una medida derivada de la presión subglótica, y de gran importancia clínica, es el umbral de presión de la fonación. Este parámetro es denido como la mínima presión
subglótica requerida para que los pliegues vocales inicien o mantengan la fonación. 48, 49 El umbral de presión de la fonación es de vital importancia como predictor de la estructura y de las capacidades vibratorias de los pliegues vocales. Especícamente, este
parámetro depende de las características viscoelásticas de los pliegues vocales, de la conguración de la glotis (ancho glótico prefonatorio), grosor del borde libre de los pliegues
vocales, cantidad de amortiguación de los tejidos (pérdida gradual de la oscilación) y la velocidad de la onda mucosa. Cuando la amplitud glótica prefonatoria es pequeña, la viscosidad de los pliegues vocales es baja y sus bordes vibratorios están exibles y relajados, la amortiguación es mínima (la exibilidad es grande), y la velocidad de la onda mucosa
es baja, entonces el umbral de presión de la fonación es bajo.
46
En una persona con alguna alteración funcional u orgánica, los pliegues vocales tienen un umbral de presión de la fonación aumentado, es decir, para poder iniciar o mantener la fonación necesitará mayor cantidad de presión subglótica comparado con una persona con pliegues vocales sanos. El umbral de presión de la fonación ha sido asociado con la sensación de esfuerzo fonatorio. De esta forma, una persona que reere un alto grado de esfuerzo
© Editorial EOS
Fundamentos y evaluación de la voz
265
fonatorio presenta un alto valor de umbral de presión de la fonación. En sujetos portadores de voces normales se espera que el umbral se encuentre entre 3 y 5 cm de H2O. 42, 46, 48-50 Algunos elementos que afectan el valor del umbral de presión de la fonación, además de los ya mencionados, son la frecuencia fundamental, el grado de hidratación de los pliegues vocales, presencia o no de fatiga vocal. Pliegues vocales bien hidratados, vibrando a una frecuencia fundamental adecuada para cada sujeto y en ausencia de fatiga vocal, deberían presentar un bajo umbral de presión de la fonación y baja sensación de esfuerzo al fonar. 51
3.3.3. Otras medidas de presión Otras medidas de presión involucradas en la producción de la voz son la presión su praglótica o intraoral, presión transglótica y presión intraglótica. La presión intraoral es la presión de aire que se encuentra en la cavidad oral y faríngea, la presión intraglótica es la presión de aire entre los pliegues vocales y la presión transglótica se dene como la
presión subglótica menos la presión supraglótica. Esta última tiene un rol importante en el proceso de fonación, puesto que si no hay diferencia entre las presiones sub y supraglótica, no existe ujo de aire entre los pliegues vocales y por lo tanto no se produce vibración.
3.4. Resistencia Resistencia es entendida en términos generales como lo opuesto al movimiento. La resistencia glótica es una medida derivada que combina las medidas de presión subglótica y de velocidad de ujo transglótico. La resistencia glótica no puede ser medida directamente, sino que se calcula dividiendo la presión subglótica por el promedio de velocidad de ujo. 42
Esta medida sirve como una estimación de la función de válvula de la laringe. Aun cuando la resistencia laríngea varía dependiendo de la etapa del ciclo vibratorio de los pliegues vocales (mayor resistencia en la fase cerrada que en la fase abierta), este parámetro generalmente se reere al promedio de resistencia a lo largo de varios ciclos (ten dencia general de la voz de una persona). Desde el punto de vista clínico, una resistencia laríngea elevada puede ser atribuible a una excesiva presión subglótica, insuciente ujo
transglótico, o ambos juntos. Un sujeto con voz apretada, perceptualmente hablando, presenta probablemente un alto valor de resistencia glótica debido a un alto grado de aducción cordal. Por el contrario, un paciente con cualidad de voz soplada, presenta una resistencia glótica disminuida. 42, 45, 47 Elementos tales como la frecuencia fundamental, intensidad de la voz, registro vocal utilizado y modo de fonación, afectan de diferente forma a todos los parámetros aerodinámicos de la fonación. Por ejemplo, la pesión subglótica está positivamente relacionada con la intensidad de la voz. Siempre que exista un aumento sustancial de la intensidad vocal, también existirá un incremento de la presión subglótica. 48, 52 Del mismo modo, normalmente cuando se incrementa la frecuencia fundamental manteniendo un mismo registro (Ej. registro modal), también existe un incremento de la resistencia glótica. © Editorial EOS
266
Trastornos del habla: de los fundamentos a la evaluación
3.5. Bases físicas de las medidas aerodinámicas de la fonación Para profundizar en los aspectos físicos relacionados con las medidas aerodinámicas de la fonación, es necesario conocer la Ley de Ohm. Esta ley se contextualiza en un sistema compuesto por elementos de ujo, presión y resistencia, al igual que el sistema
fonatorio. Cuando la concentración de partículas es mayor a un lado de la resistencia que en el otro, éstas se desplazarán desde la región de mayor a la de menor concentración o densidad. Esta diferencia de densidad determina la existencia de un gradiente de presión o potencial entre ambas regiones, lo cual a su vez produce el ujo de partículas. 42 La resistencia representa en este sistema la dicultad o impedimento al ujo. Por lo tanto, el ujo sólo ocurre cuando se cumplen dos condiciones: existencia de una asimetría en la
concentración de partículas (gradiente o potencial) y cuando la resistencia permite el paso de éstas partículas de una región a la otra (Figura 18).
Figura 18. Esquema compuesto por una resistencia, ujo y dos presiones o concentraciones de
partículas diferentes.
Este fenómeno ocurre, por ejemplo en un sistema eléctrico, donde las partículas son los electrones y el ujo es la corriente eléctrica. En la fonación, el gradiente de presión
está determinado por la diferencia que existe entre la presión subglótica y la supraglótica (denida anteriormente como la presión transglótica). Como fue señalado, la presión
transglótica es la responsable de la existencia de movimiento de partículas de aire desde la subglotis hacia la cavidad oral, y por lo tanto del ujo transglótico y de la oscilación
de los pliegues vocales. 42 La ley de Ohm es denida matemáticamente y desde el punto de vista eléctrico como: Voltaje = Corriente x Resistencia
Donde el voltaje es la diferencia de potencial eléctrico entre dos puntos del circuito, corriente es el movimiento de electrones debido al gradiente o potencial eléctrico y la resistencia es el dispositivo que opone dicultad a este ujo de electrones.
© Editorial EOS
267
Fundamentos y evaluación de la voz La fórmula que reeja la Ley de Ohm en la fonación es: Diferencial de presión = Flujo x Resistencia
Donde el diferencial de presión está determinado por la presión subglótica menos la presión supraglótica, el ujo indica el ujo de aire transglótico y la resistencia es la oposición que oponen los pliegues vocales al ujo de aire, la cual es determinada por el
grado de aducción de éstos. Cuando la fonación está asociada a un tracto vocal abierto (como ocurre en el habla normal), la presión supraglótica o intraoral es igual a la presión atmosférica, la cual es considerada en términos relativos igual a cero. Por lo tanto, basado en la fórmula, presión subglótica menos cero, tendrá como resultado únicamente la presión subglótica. En este caso, la formula nal aplicada a la fonación es Presión subglótica = fujo transglótico x resistencia glótica
Despejando aritméticamente esta fórmula se obtiene que: Flujo transglótico = presión subglótica / resistencia glótica Resistencia glótica = presión subglótica / fujo transglótico
4. FILTRO INVERSO Como fue ya señalado anteriormente, los parámetros aerodinámicos de la fonación pueden ser medidos de dos formas: conociendo las variaciones de ellos dependiendo de la fase del ciclo vibratorio (fase abierta, fase de cierre o fase de apertura), u obteniendo un promedio de ellos durante un periodo de tiempo determinado de fonación. Estudiar el poder aerodinámico generado por la glotis, dependiendo de la etapa del ciclo vibratorio, requiere la utilización de la técnica denominada ltro inverso.
La voz que escuchamos desde la boca de una persona está afectada por tres instancias acústico-siológicas. La primera de ellas la constituyen las resonancias de los pliegues
vocales (también llamados armónicos), las que están determinadas por los diferentes modos de vibración de ambos pliegues vocales. La segunda instancia está determinada por las resonancias del tracto vocal (llamados formantes), producidos por los modos de vi bración del aire contenido en el tracto vocal. Finalmente, la última etapa que modica la
señal original producida en la glotis, está determinada por las características de radiación que toman lugar cuando el sonido ltrado por el tracto vocal abandona la cavidad oral y
se propaga hacia la atmósfera. 53 La técnica de ltro inverso aplica una serie de ltros con la nalidad de eliminar el efecto de ltro del tracto vocal en la fuente la señal producida por la fuente glótica, para que ésta pueda ser estudiada aisladamente desde el punto de vista aerodinámico (Figura 19).
© Editorial EOS
268
Trastornos del habla: de los fundamentos a la evaluación
Figura 19. Software para la realización del ltro inverso. A través de los diferentes comandos que se observan se realiza el proceso de ltraje inverso.
Una vez obtenida la señal ltrada es posible calcular una serie de cocientes que en -
tregan valiosa información relacionada con el comportamiento vibratorio de los pliegues vocales, a través de las variaciones de ujo durante las fases del ciclo glótico. Los dos
cocientes más utilizados en investigación y en la clínica son el cociente de cierre y el cociente de inclinación. El cálculo de estos cocientes está basado en la duración de las diferentes etapas que componen el ciclo vibratorio y que se representan en el glotograma de ujo o forma de onda glótica, el cual es un gráco que reeja la velocidad del volumen de ujo glótico. El tiempo es gracado en el eje horizontal y el aumento de velocidad del volumen de ujo es gracado en ascendentemente en el eje vertical. Cada ciclo de velocidad de volumen de ujo glótico corresponde a una apertura y un cierre en la vibración. La parte horizontal plana debajo de la forma de onda, representa la pérdida de ujo glótico. En otras palabras,
los pliegues vocales están aducidos y la glotis está cerrada completamente. Cuando el gráco se muestra en ascenso representa un aumento del ujo a medida que los pliegues vocales se están abriendo, y el descenso representa una disminución del ujo glótico a
medida que los pliegues vocales se están cerrando. Los picos de las forma de onda (puntos más altos) representan la máxima velocidad de volumen de ujo glótico y corresponde
a la máxima apertura de los pliegues vocales en el ciclo vibratorio. Ver Figura 20.
© Editorial EOS
269
Fundamentos y evaluación de la voz
Figura 20. Glotograma de ujo. Se muestran las diferentes etapas de un ciclo. En base a estas
etapas es posible calcular los cocientes de inclinación y cociente de cierre. El cociente de cierre es denido como la duración de la etapa de cierre de los pliegues
vocales (cuando los pliegues vocales se encuentran cerrados), dividida por el periodo glótico (duración de un ciclo completo). 46, 53 El cociente de inclinación se dene como la duración de la fase de apertura (cuando los pliegues vocales se van abriendo) dividida por la duración de la fase de cierre (cuando los pliegues vocales se van cerrando). Ambos cocientes afectan las características timbrísticas de la voz, especícamente aquellas relacionadas con el grado de brillo percibido auditivamente. Una voz brillante normalmente es causada por un mayor tiempo de contacto de los pliegues vocales y una gran inclinación de la onda de ujo glótico, lo cual a su vez, reeja un rápido corte del ujo transglótico. En términos prácticos, esto implica respectivamente que los pliegues vocales permanecen más tiempo cerrados que abiertos y que el tiempo la cesación del ujo transglótico ocurre rápidamente. 46, 53 Desde el punto de vista acústico, este comportamiento siológico, produce mayor excitación de los componentes armónicos altos del espectro vocal y por lo tanto la voz es percibida más brillante y sonora.
5. VALORES PROMEDIOS DE FLUJO, PRESIÓN Y RESISTENCIA Recordemos que los parámetros aerodinámicos de la fonación pueden ser medidos de dos formas: conociendo las variaciones de ellos dependiendo de la fase del ciclo vibratorio (fase abierta, fase de cierre o fase de apertura), u obteniendo un promedio de ellos durante un periodo de tiempo determinado de fonación. La obtención de ellos dependiendo de la fase del ciclo glótico, ya fue explicada (Filtro inverso). A continuación veremos la obtención a través de valores promedios. © Editorial EOS
270
Trastornos del habla: de los fundamentos a la evaluación
5.1. Obtención del ujo Para obtener los valores promedios de ujo transglótico durante un tiempo determinado de fonación, es necesario pedirle al paciente una vocal mantenida por algunos segundos, leer un texto, hablar, o cantar una canción. Una muestra de ujo transglótico se obtiene cu briendo la boca del paciente con una máscara, la cual recibe el ujo de aire (Figura 1). Este ujo de aire es captado nalmente por un transductor que convierte la energía aerodinámica en un voltaje eléctrico. Para calcular la presión subglótica, sin embargo, se requiere solicitar una tarea fonatoria diferente. Para profundizar en este tema, es necesario describir algunos aspectos técnicos vinculados con la adquisición de la medida de presión subglotica.
5.2. Obtención de la presión subglótica La presión subglótica puede ser medida directamente, solo a través de un procedimiento invasivo que requiere una punción con una aguja en la tráquea, directamente de bajo de los pliegues vocales. La aguja es conectada a un catéter y este a su vez a un transductor de presión, el cual capta las variaciones de presión debajo de la glotis. Este método no es clínicamente utilizado debido a que es un procedimiento invasivo. 54 Sin embargo, la presión subglótica puede ser además estimada desde la presión intraoral durante la producción de la secuencia silábica papapa. 41 La secuencia papapa está compuesta de dos elementos claves para el cálculo de las presiones. La consonante áfona /p/ y la vocal sonora /a/. El procedimiento consiste en poner un tubo dentro de la boca, el cual está conectado a un transductor de presión, que convierte la señal de presión en señal eléctrica. 41, 42 Durante la producción de la secuencia papapa, especícamente durante la consonan-
te áfona /p/, la presión de la cavidad oral (presión intraoral) es igual a la presión de la subglotis (presión subglótica), debido a que los pliegues están completamente abducidos y por lo tanto ambas cavidades están conectadas. Entonces, al medir la presión intraoral con el tubo introducido dentro de la boca durante la consonante /p,/ se está midiendo tam bién la presión subglótica por el hecho de que ambas cavidades están conectadas (Figuras 21 y 22). 41, 42, 45, 47, 53
Figura 21. Tubo introducido dentro de la cavidad oral para estimar indirectamente la presión
subglótica desde la presión intraoral.
© Editorial EOS
271
Fundamentos y evaluación de la voz
Adicionalmente, durante la producción de la consonante /p/ las válvulas velofaringeas y oral están cerradas, hecho que también contribuye a la medición de la presión subglótica estimada desde la presión intraoral.
Figura 22. Grácos representativos de la disminución de la presión subgló tica después de la terapia vocal. A la izquierda (pre-terapia) se ve una mayor p resión subglótica que en el gráco de la derecha (post-terapia). Ambos grácos muestran los picos de presión producidos por la
consonante P durante la secuencia silábica papapa
6. UTILIDADES CLÍNICAS DE LAS MEDIDAS AERODINÁMICAS Son variadas las utilidades clínicas de las medidas aerodinámicas de la fonación, entre ellas encontramos: ayudan a interpretar la estructura, conguración y movimiento de los
pliegues vocales, ayudan a discriminar una función vocal normal o alterada, permiten medir la severidad de la alteración a través de la función, ayudan a indicar en forma general la etiología funcional de la disfonía y además pueden ser útiles como método de retroalimentación para la terapia vocal. 42
6.1. Ejemplos aplicados Veamos a continuación dos ejemplos aplicados de las medidas aerodinámicas de la voz. Las voces sopladas o aéreas (perceptualmente hablando) reejan un gran promedio de ujo transglótico. Este aumento de ujo puede ser causado por una disminución de
la resistencia glótica (disminución de la aducción de los pliegues vocales), un aumento de la presión subglótica, manteniendo la resistencia constante, o ambos casos al mismo tiempo. Este comportamiento siológico está claramente representado en la fórmula que dene al ujo transglótico. Flujo = Presión / Resistencia
Si el ujo esta aumentado, como ocurre en las voces sopladas, es debido a una dis -
minución del denominador de la división (resistencia) y/o un aumento del numerador (presión) o ambos juntos. © Editorial EOS
272
Trastornos del habla: de los fundamentos a la evaluación
Un caso opuesto, muy comúnmente visto en la clínica de voz, es una persona con un patrón fonatorio hiperfuncional, es decir con un aumento de la aducción de los pliegues vocales al fonar. En este caso, el promedio de ujo transglótico está disminuido comparado con una fonación normal. Esta disminución se debe ya sea a un aumento de la resistencia glótica (mayor valor en el denominador de la fórmula), o a una disminución de la presión subglótica (numerador). Sin embargo, en la clínica, lo que se ve normalmente en los pacientes con voces hiperfuncionales es un aumento de ambos parámetros paralelamente. Es decir, ocurre un incremento de la aducción glótica (lo que provoca una disminución del ujo) y además por compensación la presión subglótica también sube con el propósito
de vencer la gran resistencia impuesta los pliegues vocales y de esa forma poder inicial o mantener la oscilación.
7. ELECTROGLOTOGRAFÍA 7.1. Bases de la electroglotografía La electroglotografía es un método simple y no invasivo que permite obtener información sobre los movimientos vibratorios de los pliegues vocales y estimar el grado de contacto relativo de ellos. Este método es posible de ser realizado paralelamente a la gra bación de muestras de audio de la voz y la toma de la señal aerodinámica de la fonación. La electroglotografía se basa en las propiedades de conducción eléctrica de los tejidos laríngeos. La Figura 23 muestra algunos de los equipos comerciales de electroglotografía disponibles actualmente en el mercado internacional.
Figura 23. Dos equipos de electroglotografía disponibles en el mercado. A la izquierda el equipo
de la empresa KayPentax. A la derecha el equipo de la empresa Glottalenterprises.
Fabre en 1957 fue el primero en describir la electroglotografía, señalando que este examen permitiría la exploración de algunos fenómenos laríngeos (frecuencia de vibración, y detalles del cierre y apertura de los pliegues vocales) bajo condiciones siológicas de producción de sonido, tanto en sujetos con voces normales como en sujetos con voces disfónicas. 53
© Editorial EOS
273
Fundamentos y evaluación de la voz
Para la realización de la electroglotografía, dos electrodos de supercie son colocados
a ambos lados del cuello, puestos sobre las láminas derecha e izquierda del cartílago tiroides y jados con una faja elástica (Figura 24). Una corriente eléctrica de débil voltaje (0.5 V) de alta frecuencia (entre 300 KHz y 5 MHz) es aplicada a un electrodo y el otro elec -
trodo recoge la corriente eléctrica que pasa a través de la laringe. Esta corriente eléctrica que uye de un electrodo a otro no daña los tejidos y no es sentida por los pacientes. Esto
es debido a la combinación de alta frecuencia y bajo voltaje de la señal. Los tejidos de los pliegues vocales son buenos conductores de la electricidad, mientras que el aire entre los pliegues vocales (cuando éstos están abiertos) es un mal conductor eléctrico. Por lo tanto la impedancia eléctrica varía con la apertura y cierre de la glotis, lo que se traduce en una variación de la corriente eléctrica, en fase con la etapa del ciclo vibratorio de los pliegues vocales. La impedancia eléctrica a través de la laringe sube cuando los pliegues vocales de abren y baja cuando éstos se cierran y por lo tanto aumentan su contacto. 45
Figura 24. Postura
de los electrodos durante la evaluación con electroglotografía
La correcta postura de los electrodos es crucial para la obtención de una buena señal electroglotográca. Una errada colocación de ellos puede producir una señal de baja am plitud. Aspectos como la altura de la laringe del paciente, los movimientos verticales de la laringe al fonar o respirar y cuan apretada está la banda electica que ja los electrodos
pueden determinar cambios en la señal obtenida y por lo tanto los parámetros cualitativos y cuantitativos electroglotográcos pueden verse afectados. 55
Los cambios de impedancia eléctrica a través de los tejidos de la laringe medidos – mediante de la electroglotografía son capaces de representar, tanto los ajustes laríngeos lentos, tales como los relacionados con la posición general de los pliegues vocales; como también los cambios rápidos relacionados con cambios en el área de contacto producidos por la vibración de los pliegues vocales durante la fonación. 55, 57, 53 Normalmente es necesario hacer una correcta limpieza de los electrodos antes de ser utilizados. De igual forma, es importante el uso de un gel conductor en ambos electrodos para asegurar una señal de mejor calidad. © Editorial EOS
274
Trastornos del habla: de los fundamentos a la evaluación
7.2. Onda electroglotográfca La onda electroglotográca (electroglotograma) debe ser espacialmente orientada con
la zona de mayor contacto hacia arriba, es decir, a medida que la onda sube, el contacto cordal es mayor. Esto indica al mismo tiempo que la menor impedancia eléctrica estará con orientación hacia arriba (Figura 25). 45, 47, 53
Figura 25. Típica onda electroglotográca espacialmente orientada con la zona de mayor contacto
hacia arriba.
La onda electroglotográca puede ser dividida en dos grandes partes: fase de abierta
y fase de contacto. A su vez la fase de contacto se subdivide en fase de cierre y fase de apertura (Figura 26).
Figura 26. Un ciclo completo de la onda electroglotográca divi do en sus diferentes fases.
© Editorial EOS
275
Fundamentos y evaluación de la voz
La porción de la forma de onda que representa una disminución del contacto de los pliegues vocales (y por lo tanto un incremento de la apertura glótica) es menos abrupta que la fase donde incrementa en contacto (fase de cierre) de los pliegues vocales. Note también la breve duración del máximo contacto relativo de los pliegues vocales (corres pondiendo en una laringe normal al cierre glótico). Además, la fase de apertura es más larga que la fase de cierre y que la fase cerrada. 47, 53, 55 La Figura 27 muestra la correspondencia de los eventos vibratorios y la forma de la onda electroglotográca. Los principales puntos y segmentos de una onda electrogloto gráca perfecta se observarían como se ven a continuación. 53
Figura 27. Un ciclo completo mostrando los principales puntos y segmentos de una onda electroglotográca
1 = Mínimo contacto entre los pliegues vocales.
a = Área de contacto comienza a aumentar rápidamente. Inicio de la fase de cierre, contacto margen inferior de los pliegues vocales. a-b = Prosigue la aproximación del margen inferior de los pliegues vocales. b = Margen superior hace contacto.
b-c = Se alcanza el cierre glótico. c = pto. De máximo contacto de las cuerdas vocales. Termina la fase de cierre. c-d = Máxima área de contacto. La glotis es mínima.
d = Inicio de la fase de apertura. d-e = Prosigue la separación gradual del margen inferior de los pliegues vocales. e = Separación completa del margen inferior Inicio de la separación del margen superior.
E-f = Espacio glótico aumenta. f = Punto de mínimo contacto, glotis máxima. f-a = Pico de alejamiento entre las cuerdas vocales. © Editorial EOS
276
Trastornos del habla: de los fundamentos a la evaluación
7.3. Parámetros de la onda electroglotográfca La evaluación de la onda electroglotográca considera tanto aspectos cuantitativos, como cualitativos. Tres medidas cuantitativas o cocientes de la onda electroglotográca
son utilizadas para resumir los cambios de los pliegues vocales durante la fonación. •
•
•
Cociente de contacto: relación entre en tiempo cuando los pliegues vocales están en contacto y el tiempo total del ciclo vibratorio. Es también llamado algunas veces como cociente de cierre, sin embargo, el pico de la onda electroglotográca, así como también el cociente de contacto, no necesariamente representa cierre de la glotis, sino que máximo contacto relativo de los pliegues vocales. Es posible asumir que en una laringe normal, el pico si representa un cierre completo de la glotis. 45, 55
Cociente de apertura: relación entre la fase abierta de la vibración de los pliegues vocales y la duración del ciclo vibratorio completo. 45, 55 Cociente de velocidad: relación entre la duración de la fase de apertura y la duración de la fase de cierre. 45, 55
Los cocientes recién presentados son útiles para un análisis cuantitativo del comportamiento vibratorio de los pliegues vocales. Sin embargo, es necesario tener en cuenta que los puntos exactos de la forma de onda electroglotográca, que corresponden a eventos
tales como la apertura y cierre, son estimados, y por lo tanto pueden variar de un estudio a otro afectandose los valores. Algunos parámetros cualitativos de la onda electroglotográca son los siguientes: •
Amplitud de la onda: amplitud máxima calculada desde el punto de máximo con-
tacto al punto de mínimo contacto. Indica de forma indirecta el área de contacto de los pliegues vocales. •
Simetría de la onda: simetría entre la fase de cierre y la fase de apertura.
•
Estabilidad de amplitud y periodo: variaciones de la amplitud y periodo.
•
Duración de la fase de contacto: tiempo que dura la fase de contacto.
•
Duración de la fase de abierta: tiempo que dura la fase abierta.
7.4. Desventajas de la electroglotografía La electroglotografía tiene varias ventajas, entre ellas, el bajo costo, es de fácil uso, fácil de conseguir en el mercado y no es un método invasivo. Sin embrago, este sistema también posee desventajas tales como, la señal puede ser de mala calidad en sujetos con laringes pequeñas, particularmente mujeres y niños, para quienes en cambio en la resistencia debido al contacto de los pliegues vocales o ausencia de contacto es muy pequeña. También es difícil obtener una señal adecuada en sujetos con cuellos muy gruesos, debido tanto a mucha musculatura o mucho tejido adiposo. 53, 55 Uno de los problemas más importantes de la electroglotografía es la interpretación de la forma de onda, particularmente en sujetos con alteraciones vocales. La presencia © Editorial EOS
277
Fundamentos y evaluación de la voz
de la capa de mucus en los pliegues vocales puede cambiar la resistencia natural de la corriente eléctrica entre los dos electrodos, haciendo confusa la interpretación del verdadero contacto de los pliegues vocales. La hiperfunción muscular puede cambiar también la naturaleza de la resistencia, alterando la forma de la onda electroglotográca y por lo
tanto alterando la interpretación. 53
7.5. Ejemplos de ondas electroglotográfcas
7.5.1. Modos de fonación Los modos de fonación dependen del grado de aducción de los pliegues vocales. Por lo tanto los diferentes modos de fonación (apretado, normal, soplado y susurrado) maniestan tiempos y cocientes de contacto diferentes (Figuras 28-30). Al comparar las tres ondas electroglotográcas correspondientes a tres diferentes mo -
dos de fonación, es posible observar claramente que la zona de contacto es mayor en la voz apretada comparada con las muestras de voz normal y voz soplada. Además, la onda de voz apretada tiene una mayor amplitud de vibración de las otras dos. Este último hecho indicaría un área de contacto de los pliegues vocales mayor.
Figura 28. Onda electroglotográca perteneciente a un paciente con voz normal.
Figura 29. Onda electroglotográca perteneciente a un paciente con voz apretada.
© Editorial EOS
278
Trastornos del habla: de los fundamentos a la evaluación
Figura 30. Onda electroglotográca perteneciente a un paciente con voz soplada.
7.5.1. Registros vocales Los registros vocales o mecanismos fonatorios también son reejados en la onda elec troglotográca. A continuación se muestran ondas pertenecientes a los registros modal,
falsete y vocal fry (Figuras 31-33).
Figura 31. Onda electroglotográca perteneciente a una fonación en registro modal. Se observa
una onda asimétrica con un tiempo de contacto cercano al 50%.
Figura 32. Onda electroglotográca perteneciente a una fonación en registro de falsete. Se
observa una onda asimétrica con un tiempo de contacto cercano 35%. El grado de simetría en registro de falsete es mayor comparado con el registro modal. Esto se debe a la menor diferencia de fase vertical que caracteriza al registro de falsete.
© Editorial EOS
279
Fundamentos y evaluación de la voz
Figura 33. Onda electroglotográca perteneciente a una fonación en registro de vocal fry. Se
observa una onda asimétrica con un tiempo de contacto cercano 70%. Adicionalmente de observa doble oscilación, algo característico del vocal fry.
8. ANÁLISIS ACÚSTICO DE LA VOZ El análisis acústico es una forma de analizar y estudiar en forma objetiva la voz de una persona. El hecho de que sea objetivo permite eliminar la subjetividad de la evaluación realizada con el oído del evaluador. Para llevar a cabo el análisis acústico de la voz es necesario considerar varias etapas: 1) grabación de la voz del paciente utilizando una cadena de grabación apropiada, 2) se le pide al paciente que emita diferentes tipos de tareas fonatorias, 3) estas señales acústicas ingresan a un software el cual capaz de extraer las dimensiones físicas de una onda sonora, analizarlas en forma cuantitativa y cualitativa, y nalmente entregar como resultado grácos y parámetros numéricos que deben ser inter pretados por el evaluador (Figuras 34 y 35). Las utilidades del uso del análisis acústico de la voz incluyen: •
Entregar mayor comprensión acústica del output de la voz y producir una mayor
asociación de este tipo de análisis con la valoración perceptual auditiva. •
Proveer datos normativos para diferentes realidades vocales, diferentes culturas,
diferentes rangos etarios, diferentes ocupaciones, etc. •
Ofrecer una posibilidad de documentación para trazar la línea de base de la voz de
una persona. •
Monitorear el avance de la terapia o entrenamiento de la voz de una persona.
•
Sirve como instrumento de detección precoz de posibles problemas vocales.
A pesar de la contribución innegable que entrega el análisis acústico de la voz, la evaluación perceptual realizada por el oído entrenado del clínico nunca debe ser eliminada. El análisis acústico debe ser utilizado como una forma complementaria de evaluación vocal y como una manera objetiva no invasiva de documentar el estado vocal de una persona. Para realizar un correcto análisis acústico y una posterior interpretación, es necesario
© Editorial EOS
280
Trastornos del habla: de los fundamentos a la evaluación
conocer de forma detallada las bases acústicas de la producción de la voz. El presente ca pítulo no incluye este tema, por lo tanto se recomienda a los lectores consultar la literatura.
Figura 34. Fonoaudiólogo
preparando ubicación del paciente frente al micrófono para posterior grabación de la voz
Figura 35. Fonoaudiólogo
durante proceso de grabación de voz para posterior análisis acústico
8.1. Tipos de análisis acústicos A continuación de describirán los tipos de análisis acústicos más utilizados actualmente. Cada análisis acústico está acompañado por ejemplos prácticos y su interpretación. •
Oscilograma.
•
Espectrograma.
•
Spectrum FFT.
•
Spectrum LPC.
•
Cepstrum.
•
Espectro promedio a largo plazo (LTAS).
•
Análisis de índices foneticoacústicos.
•
Fonetograma.
•
Histograma.
•
Contornos.
9.1. Oscilograma El oscilograma es también llamado forma de onda. Constituye la representación visual más elemental del sonido y es conformado en su eje horizontal por el tiempo y en el eje vertical por la amplitud de la señal (Figura 36). De esta forma, el oscilograma es una repre sentación gráca de una vibración en función del tiempo . 45 Esta representación gráca es la que primero se observa cuando una señal de audio es grabada. A partir de este gráco se ob tienen todos los otros análisis acústicos tales como espectrograma, espectro, cepstrum, etc.
© Editorial EOS
Fundamentos y evaluación de la voz
281
Figura 36. Se observan cuatro oscilogramas obtenidos de la grabación de una voz normal. Todas
estas formas de ondas muestran la misma señal de audio. La primera de ellas está totalmente com primida, mientras que la última está descomprimida y por lo tanto se observan más detalles en cada uno de los ciclos.
9.2. Espectrograma El espectrograma es la representación gráca de la frecuencia y la intensidad de la forma de onda en función del tiempo. El tiempo es gracado en el eje horizontal y la
frecuencia en el eje vertical. La tercera dimensión se representa en un tercer eje, el cual contiene la energía o amplitud de la señal. Esta energía es comúnmente representada en escala de grises, donde las zonas más oscuras representan las partes con mayor energía. En ocasiones la energía es representada utilizando diferentes colores. 45 La espectrografía está basada en el teorema de Fourier. Este teorema señala que todas las ondas periódicas pueden ser descompuestas en la suma de una serie de ondas senoidales con frecuencias armónicas. El análisis de Fourier es el proceso mediante el cual se separa una onda compleja en sus componentes senoidales. Un espectrograma contiene una gran cantidad de información, sin embargo, no toda puede ser mostrada al mismo tiempo. Cuando se produce un espectrograma, se debe tomar la determinación acerca de qué tipo de información de desea mostrar, ya sea ésta relacionada con la fuente de sonido (pliegues vocales) o con el ltro (tracto vocal). Un espectrograma puede mostrar información detallada acerca de la estructura armónica de la fuente (pliegues vocales) y acerca de las resonancias del tracto vocal. Ambos tipos de información no pueden ser entregadas al mismo tiempo con la misma claridad.45 © Editorial EOS
282
Trastornos del habla: de los fundamentos a la evaluación
Lo que determina la claridad de los elementos observados en el espectrograma es el ancho de banda del ltro aplicado durante el proceso de creación del espectrograma. Un ltro de banda estrecha o angosta produce un espectrograma con buena resolución
frecuencial, esto es, buena resolución de los armónicos de la fuente de sonido. Por el contrario, el ltro de banda ancha favorece una buena resolución temporal. Esto permite
una buena visualización de los pulsos glóticos y además una buena resolución para las resonancias del tracto vocal o formantes. Las Figuras 37-42 representan diferentes tipos de emisiones, algunas de ellas analizadas con ltro de banda estrecha y otras con ltro de banda ancha.
Figura 37. Espectrograma vocal /a/ voz normal con ltro de banda ancha. Buena denición temporal (se observan lo periodos) y buena denición para los formantes. (Buena denición para los formantes y ciclos)
Figura 39. Espectrograma
de banda estrecha de una voz disfónica con escape de aire (ruido interarmónico). Se observa pérdida de los armónicos de las frecuencias altas y pérdida de energía en los armónicos.
© Editorial EOS
Figura 38. Espectrograma vocal /a/ voz normal con ltro de banda estrecha (Buena denición para los armónicos)
Figura 40. Espectrograma
de banda estrecha de un glissando. A medida que aumenta la frecuencia fundamental en el glissando, la distancia interarmónica es mayor.
283
Fundamentos y evaluación de la voz
Figura 41. Espectrograma
secuencia vocálica /i, e, a, o, u/ (Banda ancha). Gran variación de los formantes 1º y 2º a medida que se modica el tracto vocal cambiando el
molde vocálico. Vocal /i/, F1 en frecuencias bajas y F2 en frecuencias altas. Vocal /a/, F1 y F2 muy cercanos en frecuencias medias. Vocal /u/, F1 y F2 muy cercanos en frecuencias bajas.
Figura 42. Espectrograma
banda estrecha vocal /a/ cantada con vibrato. Se pueden ver las oscilaciones del vibrato en cada armónico y además se observa claramente el “formante del cantante” cercano a los 3000 Hz.
Yanagihara en el año 1967 propuso una forma de categorizar las disfonías según las características espectrográcas. El autor basó su análisis utilizando espectrogramas de
banda estrecha en las cinco vocales, a intensidad media con tono habitual. Los espectrogramas fueron categorizados dentro de cuatro tipos, los cuales representan de manera adecuada el grado de la disfonía. 53 Grado 1: Componentes armónicos mezclados con componentes de ruido principalmente en la región de los formantes vocálicos
Grado 2: Los componentes de ruido en el segundo formante de las vocales /e/ e /i/ dominan por sobre los componentes armónicos, y leves componentes de ruido adicional aparecen en la región de altas frecuencias sobre 3000 Hz. © Editorial EOS
284
Trastornos del habla: de los fundamentos a la evaluación
Grado 3: El segundo formante de la /e/ e /i/ es totalmente reemplazado por componentes de ruido y componente de ruido adicional sobre los 3000 Hz. con mayor energía y expansión de su rango.
Grado 4: El segundo formante de la /a/, /e/ e /i/ son remplazados por componentes de ruido, e incluso el primer formante de todas las vocales a menudo pierde su componente periódico. Además, los componentes de ruido de la alta frecuencias son intensicados.
© Editorial EOS
285
Fundamentos y evaluación de la voz
Adicionalmente, fuera de la clasicación de Yanagihara, se muestra a continuación un
espectrograma representando una afonía completa.
9.3. Espectro FFT y LPC El espectro o espectrum FFT (Fast Fourier Transformation) es una representación gráca de la señal de audio que es extraída desde un punto especíco de tiempo del espectro grama. En el eje horizontal está representada la frecuencia y en el eje vertical la amplitud de la señal. El espectro FFT muestra la amplitud relativa de los armónicos, reejando la
combinación del espectro de la fuente, la función de transferencia y las características de radiación. El espectro FFT no es preciso para determinar la frecuencia de los formantes ya que en ocasiones el centro de frecuencia de estos no coincide con los armónicos (Figura 43). Por otra parte, el espectro LPC (Lineal Predicting Code) muestra una envolvente del espectro y por lo tanto la identicación de los f ormantes es fácil. 53 No se pueden ver los armónicos (Figuras 44-45). El LPC se puede gracar de dos formas: como historia formántica o como un corte (Figuras 45-46).
Figura 43. Espectro FFT de la vocal /a/. Se
observa de manera clara los armónicos con diferentes amplitudes dependiendo de la
Figura 44. Espectro LPC de vocal /a/
(forma de corte). Se observan claramente los formantes o resonancias del tracto vocal.
función de la fuente y del ltro.
© Editorial EOS
286
Trastornos del habla: de los fundamentos a la evaluación
Figura 45. Espectros FFT y LPC de la vocal /a/ juntos en una misma imagen
Figura 46. Espectro LPC de la vocal /a/. A la izquierda en forma de corte y a la derecha
en forma de historia formántica. En éste último los formantes están señalados en color blanco y en función del tiempo.
Figura 47. LPC historia formántica (color blanco) de un segmento de habla conectada. Se observa
la variación de los formantes en función del tiempo. Esta variación es propia del habla conectada producto de los cambios articulatorios
© Editorial EOS
287
Fundamentos y evaluación de la voz
Es importante considerar que el LPC tiene ciertas limitaciones y que por lo tanto sus resultados no son conables en todas las circunstancias. A continuación se enumeran las
limitaciones más relevantes: •
LPC es bueno para vocales no nasalizadas. LPC asume que el espectro analizado
está formado principalmente por picos espectrales sin antiformantes. •
Es necesario especicar por anticipado el número de formantes a encontrar en el
espectro. Si el número anticipado de picos es más grande que el de los picos reales, LPC pondrá picos pequeños donde no existen realmente. Por el contrario, si se anticipan muy pocos picos, menos que los reales, LPC fallará en encontrar picos que si existen realmente en el espectro. • Puede fallar si las señales cambian abruptamente. Como ocurre en muchas alteraciones de la voz. •
Si la F0 es muy alta (arriba de 350 Hz.). El proceso de LPC no será preciso.
9.4. Análisis cepstral (Cepstrum) El análisis “cepstral” provee una forma efectiva de derivar el valor de la F0 y evaluar algunas características de la función del ltro del tracto vocal y de la fuente de una forma no invasiva. La palabra “cepstrum” se origina de la inversión de la primera sílaba de la palabra “spectrum”. La razón de esto es porque el análisis cepstral es de alguna forma lo inverso del análisis espectral. En otras palabras, el método cepstrum consiste en aplicar dos Transformadas de Fourier a la forma de onda. 56, 57 Para efectos de análisis de la calidad vocal de una persona, lo que se utiliza especícamente del análisis cepstral es la prominencia del pico cepstral (Figura 48). Un pico cepstral alto (valor alto) es obtenido en voces caracterizadas por una estructura armónica bien denida (Figura 49). Por el contrario, una voz soplada o ronca tiene una estructura armónica débilmente denida y, por lo tanto, el pico cepstral es bajo (bajo valor) (Figura 50-51).
Investigaciones previas han reportado que el valor del pico cepstral es el mejor predictor de disfonía en comparación con los índices de perturbación e índice de ruido glótico. 58-61 Además, el pico cepstral ha mostrado una alta correlación con el grado de severidad de la alteración vocal. 62-66
© Editorial EOS
288
Trastornos del habla: de los fundamentos a la evaluación
Figura 48. Se observa un espectro FFT (arriba) y el cálculo del cepstrum (abajo). Este último
resulta en la determinación del pico de mayor amplitud en una escala temporal, lo que permite calcular el valor de la frecuencia fundamental, y la amplitud del pico del cepstrum, entregando información relacionada con grado de periodicidad.
Figura 49. Pico cepstral voz normal. Se observa un pico con un valor de 7,6. Este valor representa el periodo de la F0 y a través de éste podemos derivar que el valor de la frecuencia fundamental es 131 Hz. La intensidad de ese pico está dada por el valor de 146, señalado presencia de alta energía en la F0 (atribuido a una voz de buena calidad). Además podemos observar que existe una anchura reducida del pico cepstral, indicando alta estabilidad de la frecuencia.
© Editorial EOS
Figura 50. Pico cepstral voz disfónica. Nuevamente se observa un pico con un valor de 7,6. y por lo tanto el valor de la frecuencia fundamental es 131 Hz. Pero, en forma contraria a la imagen anterior, acá vemos un pico de F0 de baja intensidad y mayor anchura. Lo primero señala poca energía en este componente espectral y lo segundo indica alto grado de inestabilidad. Ambos rasgos característicos de voces de mala calidad.
Fundamentos y evaluación de la voz
289
Figura 51. De arriba hacia abajo, se observa el espectrograma, espectro y cepstrum de una voz disfónica. El espectrograma muestra pobre denición de los armónicos en la zona alta. Ruido
glótico reemplaza a los armónicos. El espectro muestra lo mismo pero desde otra perspectiva. Los armónicos altos se observan con baja amplitud. Finalmente el pico cepstral es poco denido, de
base ancha y bajo en amplitud.
© Editorial EOS
290
Trastornos del habla: de los fundamentos a la evaluación
9.5. Espectro promedio a largo plazo (LTAS) El espectro promedio a largo plazo es ampliamente conocido como una herramienta útil y efectiva para la evaluación de las características de la fuente (pliegues vocales) y ltro (tracto vocal) de la voz. 67 El espectro promedio a largo plazo provee una vista promedio de la distribución de la energía espectral en una muestra de habla continua. En otras palabras, el LTAS pone en un sólo espectro la medida de varios espectros obtenidos en un periodo de tiempo determinado, mientras el paciente habla, lee un texto o canta una canción. A través del LTAS es posible obtener varias variables relacionadas con la distri bución de la energía espectral de la voz, por medio de pendientes espectrales, siendo una de las más utilizadas el Alpha Ratio (diferencia de energía armónica entre una zona baja y una zona alta del espectro). Este tipo de análisis es ampliamente utilizado en el ámbito de la investigación. Ha sido aplicado en estudios de reconocimento de voces, detección de la cualidad vocal, alteraciones de la voz, envejecimiento vocal, evaluación de técnicas de terapia vocal y diferenciación vocal entre diferentes poblaciones. 68-78 Las Figuras 52-54 muestran espectros de diferentes cualidades vocales, obtenidas a través de LTAS.
Figura 52. Este gráco LTAS corresponde a al habla espontanea de un actor con “voz resonante”.
Posee gran amplitud de los armónicos de alta frecuencia.
Figura 53. Este gráco LTAS corresponde a al habla espontanea de un actor con “voz opaca”.
Posee pobre amplitud de los armónicos de alta frecuencia si la comparamos con la imagen anterior perteneciente a una voz “resonante”.
© Editorial EOS
Fundamentos y evaluación de la voz
291
Figura 54. LTAS de una voz severamente disfónica. Se observa ausencia completa de energía
armónica en casi todo el espectro. Solo se pueden distinguir los dos primeros armónicos. Desde 700 Hz hacia arriba sólo existe energía no armónica (ruido glótico)
9.6. Índices foneticoacústicos Otra manera de analizar la voz mediante el análisis acústico, es a través de índices numéricos. La diferencia de estos índices con la utilización del espectrograma o espectro es que entregan resultados totalmente objetivos y no necesitan de la experiencia visual, como si es requerido en la interpretación de algunos análisis espectrográcos. Dentro de
estos índices se encuentran: las medidas de perturbación de la frecuencia, medidas de perturbación de la amplitud y los índices de ruido glótico. Las medidas de perturbación indican la variabilidad que existe ciclo a ciclo en una señal. Estas medidas pueden ser solo aplicadas en vocales sostenidas o extracciones de segmentos vocálicos. De manera genérica se denomina Jitter a la perturbación de la frecuencia y Shimmer a la perturbación de la amplitud. Existen a su vez varios tipos de Jitter y de Shimmer. En general los índices de perturbación como el Jitter y el Shimmer son índices de estabilidad del sistema fonatorio y de la calidad vibratoria de los pliegues vocales. 55 Si el sistema fonatorio fuese perfectamente estable (hecho que no ocurre en la voz) los valores de Jitter y Shimmer serían igual a cero. Dentro de los factores que causan las inestabilidades del sistema fonatorio se encuentran deciencias en el control aerodi námico, control motor y alteraciones en los movimientos de los tejidos. Dentro de los índices de perturbación de la frecuencia se encuentran: Jitter absoluto, Jitter relativo, Relative Average Perturbation (RAP), Pitch Period Perturbation Quotient (PPQ), Smoothed Pitch Period Perturbation Quotient (sPPQ), Coefcient of Fundamental
Frequency Variation (vF0). En la clínica de voz el índice de perturbación de frecuencia más comúnmente utilizado es el Jitter relativo, siendo su valor umbral cercano a 1. Esto implica que valores mayores a 1 estarían fuera del rango de normalidad. Dentro de los índices de perturbación de la amplitud se encuentran: Shimmer absoluto, Shimmer relativo, Amplitud Perturbation Quotient (APQ), Smoothed Amplitude © Editorial EOS
292
Trastornos del habla: de los fundamentos a la evaluación
Perturbation Quotient (sAPQ), Coefcient of Amplitude Variation (vAm). En la clínica
de voz el índice de perturbación de amplitud más comúnmente utilizado es el Shimmer relativo, siendo su valor umbral cercano a 3. Esto implica que valores mayores a 3 estarían fuera del rango de normalidad. En el año 1982, Yumoto propuso una forma para cuanticar la calidad de una voz. La
propuesta de Yumoto está basada en que la voz siempre contiene componentes periódicos y componentes de ruido (ondas aperiódicas) y además que el rasgo característico de la disfonías es el reemplazo de armónicos por ruido (Figura 55). 79
Figura 55. Ambos espectrogramas muestran voces con presencia de ruido glótico. En el espectrograma de la izquierda el ruido es predominante a partir de los Hz. 1.200 hacia arriba. En el espectrograma de la derecha el ruido glótico se encuentra a lo largo de todo el rango frecuencial.
Considerando lo anterior, entonces el mejor índice para disfonía debería ser por lo tanto una relación de uno con el otro. De aquí nace entonces la relación de amplitud armónico/ruido (HNR). Esto es la amplitud de las ondas periódicas dividida por la amplitud de las ondas aperiódicas de la voz. Mientras más alto es el valor, mejor es la calidad vocal (Figura 56).
Figura 56. El espectrograma de la izquierda pertenece a una voz normal, con un valor de HNR de 22 dB. El espectrograma de la derecha pertenece a una voz moderadamente disfónica, con un valor de HNR de 4 dB.
© Editorial EOS
293
Fundamentos y evaluación de la voz
Además del índice HNR existen otros índices que entregan información relacionada con la cantidad de energía de ruido que tienen las voces: razón ruido/armónico (NHR), razón señal/ruido (SNR), índice de turbulencia de la voz (VTI), índice de fonación suave (SPI). Es importante señalar que los índices HNR y NHR son opuestos, es decir, cuando la calidad de la voz es buena, el valor de HNR debería ser alto, mientras que el valor de NHR es esperable que sea bajo. Algunos programas de análisis acústico entregan los resultados en forma gráca, además de numérica (Figuras 57-59). Estos grácos normalmente entregan resultados de los
índices señalados y otros que no han sido mencionados en el presente capítulo.
Figura 57. Gráco de índices acústicos de una voz normal (todos los índices están en color más
oscuro, dentro de rangos normales).
Figura 58. Gráco de índices acústicos de una voz alterada (paciente con nódulos de cuerdas
vocales). Se ven índices en gris oscuro (fuera del rango de normalidad). Por ejemplo, se observa que los índices jitter (Jitt) y shimmer (Shim), perturbación de la frecuencia y de la amplitud respectivamente, están fuera de rangos normales.
© Editorial EOS
294
Trastornos del habla: de los fundamentos a la evaluación
Figura 59. Gráco de índices acústicos de una voz severamente alterada (parálisis de cuerda
vocal). La mayoría de los índices acústicos están en color rojo indicando que están fuera del rango de normalidad.
9.7. Fonetograma El fonetograma es una representación gráca de los rangos de frecuencia e intensidad de una voz, rango vocal y rango dinámico respectivamente (Figuras 60-61). Mediante la
grabación se le pide al paciente que emita cada nota de la extensión tonal a la mínima y máxima intensidad que sea capaz de mantenerla por al menos dos segundos. 80 Esto dará un área denominada campo vocal. El fonetograma es muy útil para registrar el estado pre y post tratamiento fonoaudiológico, médico o quirúrgico. De esta forma se pueden observar en forma gráca los avances del tratamiento a través de los parámetros ya mencio nados: Rango vocal (rango frecuencial), rango dinámico (rango de intensidad) y campo vocal (área total).
Figura 60. Fonetograma
voz normal. Se observa un amplio campo vocal (rango vocal y rango dinámico adecuados)
© Editorial EOS
Figura 61. Fonetograma
voz patológica. Campo vocal disminuido (disminución del rango dinámico y rango vocal)
295
Fundamentos y evaluación de la voz
Los resultados son gracados en un diagrama cartesiano. En el eje horizontal se repre -
sentan las frecuencias (Hz) y en el eje vertical se representan los niveles de presión sonora (dB), es decir las intensidades mínimas y máximas a las cuales es posible emitir cada una de las frecuencias del eje horizontal. El fonetograma puede ser realizado tanto manualmente (Figura 62), como a través de la utilización de un programa computacional. 81
Figura 62. Procedimiento de realización de un fonetograma manual. Este procedimiento no
requiere un programa computacional. Se utiliza un piano (teclado musical) y un sonómetro. Se solicita al paciente que produzca ciertas notas de su rango vocal utilizando la intensidad más baja y más alta posible. La gráca que expresa los resultados de la medición esta nalmente constituida por
dos curvas, una superior y una inferior, que indican respectivamente los niveles de presión sonora máximos y mínimos que es capaz de emitir la persona evaluada. Una vez realizada la medición, es posible obtener el campo vocal uniendo estas dos curvas. En la gráca nal, el límite izquierdo del campo vocal corresponde a las frecuencias más bajas
que la persona es capaz de emitir, y el límite derecho del campo vocal corresponde a las frecuencias al altas. 80 Este método de valoración permite delimitar el potencial vocal de cada persona. Además es útil para mostrar al paciente de forma gráca el estado de su voz y como se esperaría es ésta cambie después del tratamiento vocal. Este instrumento puede ser utilizado tanto para personas con voces normales, como personas portadoras de alteraciones vocales. Este método de evaluación vocal ha sido conocido a lo largo del tiempo con varios nombres. Clavet en el año 1953 lo denominó curva vocal, reriéndose a la expresión gráca del resultado de la prueba. Luego en 1972, Komiyama lo llamó fonograma. Final-
mente en 1977, Dejonckere lo denominó fonetograma, siendo este el nombre con el que se le conoce en la actualidad en habla hispana. 82 En inglés, se utiliza el término Voice Range Profle. 81
© Editorial EOS
296
Trastornos del habla: de los fundamentos a la evaluación
9.8. Histogramas En términos generales, un histograma muestra la dispersión de valores. Aplicado al área vocal, el histograma es un gráco que muestra el número de veces que se repite cada
valor de frecuencia fundamental (F0) y cada valor de intensidad durante la emisión de la voz. Dicho de otra forma, el histograma muestra los tonos fundamentales y las intensidades que más utiliza el paciente durante la emisión de voz. Para obtener la F0 y la intensidad más utilizada por un paciente, se le pide que diga una frase, hable en forma normal (habla espontánea), o que mantenga una vocal durante un tiempo determinado. Esta señal se graca posteriormente en los histogramas de recurrencia en intensidad. El histograma es la forma objetiva más conable para obtener el “tono medio hablado” de una persona. Las Figuras 63-66 muestran ejemplos de histogramas de frecuencia y amplitud.
Figura 63. Histograma
de intensidad o amplitud (la barra más larga es la intensidad más utilizada por el paciente)
Figura 64. Histograma de frecuencia (la
barra más larga es la F0 más utilizada por el paciente)
Figura 65. Histograma de F0 correspondiente a una voz con quiebre vocal (comúnmente
encontrado en la puberfonía). Se observan dos picos claramente diferenciados producto de la gran diferencia de F0 de la voz antes y después del quiebre vocal.
© Editorial EOS
Fundamentos y evaluación de la voz
297
Figura 66. Histograma de amplitud correspondiente a una voz con quiebre vocal. Se observa una base muy ancha producto de la gran diferencia de amplitud de la voz antes y después del quiebre vocal.
9.9. Contornos Los contornos gracan la variación ciclo a ciclo de la frecuencia fundamental (F0) y la amplitud (intensidad) Mientras más parejo (estables) sean los contornos, se demuestra menos variación ciclo a ciclo y por lo tanto mejor calidad vocal durante una vocal mantenida en el tiempo. Las escalas de F0 e intensidad son diferentes e independientes. Los contornos de F0 y amplitud son complementarios a los histogramas, debiendo am bos ser observados en forma conjunta. Las Figuras 67-70 muestran ejemplos de contornos melódicos y de amplitud pertenecientes a pacientes con voces normales y con alteraciones vocales. .
Figura 67. Gráco mostrando una voz normal con frecuencia fundamental (F0) y amplitud
estables. Arribase observa el contorno de amplitud y abajo, en la línea de abajo, el contorno de F0 o contorno melódico.
© Editorial EOS