SEGUNDA UNIDAD: PROCESADO DE LA SEÑAL DE VOZ HERRAMIENTAS HERRAMIENTAS BÁSICAS DE ANÁLISIS DE VOZ Y AUDIO III. CUESTIONARIO PREVIO a) ¿Cuál ! la "#$%&'#a "#$%&'#a &(% &%*a &%*a + &%*a l,'al#-a"a l,'al#-a"a u "u%a'#/& (01,%al "2 " 1,!% la 3&(a&a 1a%a u ! 1u"a u(#l#-a% & l (%a(a0#&(, " la! !4al! " 3,-5 La energía de una señal se halla en todo el intervalo de tiempo que dura, la energía localizada se halla en un solo marco de la señal. Idealmente la longitud de la ventana tiene que estar entre 20 y 30 ms.
2) ¿6u7 ! la $u&'#/& " Au(,',%%la Au(,',%%la'#/&8 '#/&8 u a1l#'a'#,& a1l#'a'#,&! ! (#&5 Est de!nida como la correlaci"n cruzada de una señal consigo misma. La #unci"n de autocorrelaci"n resulta de gran utilidad para encontrar patrones repetitivos dentro de una señal, como por e$emplo, la periodicidad de una señal enmascarada %a$o el ruido o para identi!car la #recuencia #undamental de una señal que no contiene dicha componente, pero aparecen numerosas #recuencias arm"nicas de esta.
') ¿G%a9u ¿G%a9u + &'u&(% &'u&(% !u %1%!&(a'#/ %1%!&(a'#/& & 0a(0á(#'a 0a(0á(#'a " la! !#u#&(! 3&(a&a!: Ba%(l(( , (%#a&ula%)8 Bla';0a&8 B,<'a% , %'(a&ula%)8 Ha00#&8 Ha&& + =a#!%5
V. ACTIVIDADES ACTIVID ADES A'(#3#"a" >: ENVENTANADO E& MATL MATLAB AB #01l #01l0 0& &( ( 0"#a "#a&( &( u& a%'? a%'?#3 #3, , M la! la! !#u#&(! 3&(a&a!: Ba%(l(( , (%#a&ula%)8 Bla';0a&8 B,<'a% , %'(a&ula%)8 Ha00#&8 Ha&& + =a#!%. U! ',0a&",! ',0, Ha&&8 + 1a%a (&% u&a #"a "l %!ul(a", u! l ',0a&", @3(,,l. Impl Implem emen enta taci ci"n "n de las las vent ventan anas as,, toda todas s con con una una long longit itud ud de &'0 &'0 puntos, lo cual signi!ca 20 ms si usamos una #recuencia de muestreo de (000 m)s
*sando el comando +vtool nos da las siguientes gr!cas
D#2u !,2% u&a 0#!0a 9u%a la! "#!(#&(a! 3&(a&a! & l ",0#, (01,%al + ,2!%3 l,! "#!(#&(,! 1%9l!. Haa l, 0#!0, u & l 1u&(, a&(%#,% 1%, & l ",0#, " la $%'u&'#a u(#l#' u&a ( 'u+a l,&#(u" !a 1,(&'#a " ). Dibujo de las distintas ventanas en el dominio temporal
Dibujo de las distintas ventanas en el dominio de la frecuencia
P%u&(a!: a. ¿Cuál ! la 3&(a&a u #&(%,"u' 0&,% "#!(,%!#/& & !( ",0#, (01,%al5 La ventana con menor distorsi"n en el dominio temporal es la ventana rectangular.
2. ¿Cuál ! l #&',&3&( " la 3&(a&a %'(a&ula% & !( ",0#,5 El inconveniente de la ventana rectangular es que en el dominio de la #recuencia su equivalente es una #unci"n -inc que contamina las %andas laterales de #recuencia al momento de enventanar nuestra señal de voz
A'(#3#"a" : ENERGA LOCALIZADA G%a2 & Ma(la2 u&a !4al " 3,- 01l,V,-.@a3F " u&a "u%a'#/& " !u&",!. Adquisición de muestras/segundo
audio.
Duración: 2 segundos
Frecuencia
de
muestreo
8000
ectura del arc!ivo grabado
D(%0#& !u &%*a & 'a"a #&!(a&( u(#l#-a&", 3&(a&a! " Ha00#& " #ual l,&#(u" u(#l#' 1a%a ll, u&a $u&'#/& lla0a"a &%*a. "rimero usamos una longitud de ventana de #amming de $%0 puntos &20 ms': a función llamada energ(a es la siguiente:
Dibujo de la se)al de vo* + la energ(a en el dominio del tiempo:
Ca02# la l,&#(u" " la 3&(a&a + ',01a% la &%*a &',&(%a"a ',& l a&(%#,% 1a!,. ongitud de la ventana de #amming de %, puntos &8 ms'
ongitud de la ventana de #amming de ,80 puntos &%0 ms':
C% u& a%'?#3, M u 'la!#9u la !4al " 3,- & (%! l!8 !& la 'a&(#"a" " &%*a u 1,!& 'a"a (%a0a " la !4al l,! l! ! 'la!#9'a%á& ',0, !,&,%,8 !,%", + %u#",.
P%u&(a!: a. /u ocurre si la ventana es demasiado grande o demasiado pequeña1 -i la ventana tiene una longitud mayor en tiempo, entonces la energía que visualizamos tiene una magnitud mucho mayor que nuestra señal de voz en el dominio del tiempo. -i la ventana tiene una longitud menor en tiempo, entonces la energía que visualizamos tiene una magnitud casi igual a nuestra señal de voz en dominio del tiempo. %. /u tipo de ventana utilizaría si quisiera detectar cam%ios %ruscos y de corta duraci"n en la señal1 Es recomenda%le usar la ventana de amming de longitud entre 20 y 30 ms porque o#rece una me$or apreciaci"n de la energía en los sonidos sonoros y sordos.
A'(#3#"a" . ESTIMACIJN DE LA KRECUENCIA KUNDAMENTAL G%a2 & MATLAB u& 9'?%, lla0a", 01l,!,&,%,.@a3F u ',%%!1,&"%á a u&a (%a0a !,&,%a " la !4al " 3,-. -e)al de ejemplosonoro.av en el dominio del tiempo:
U(#l#' la $u&'#/& !(',%% 1a%a 'al'ula% !u au(,',%%la'#/& l,'al#-a"a (&a & 'u&(a u la l,&#(u" " la 3&(a&a "2 !% l, !u9'#&(0&( %a&" ',0, 1a%a a2a%'a% 3a%#,! 1%#,",! " la !4al " 3,- & l,! (%a0,! !,&,%,! " l, ',&(%a%#,8 la 1%#,"#'#"a" " la !4al &, ! %a%á & la au(,',%%la'#/&. La $u&'#/& R& ;) ! !#07(%#'a + 1,% (a&(, !/l, ! 0u!(%a la 1a%( 1,!#(#3a " la 0#!0a. O2!%3 '/0, 'ua&", la !4al " &(%a"a ! 1%#/"#'a8 la $u&'#/& " au(,',%%la'#/& 1%!&(a 1#',! !1a%a",! 1%'#!a0&( #ual al 1%#,", $u&"a0&(al.
a función stcorr es la siguiente:
E&'u&(% la $%'u&'#a $u&"a0&(al " !u 3,-8 a 1a%(#% " la $u&'#/& " Au(,',%%la'#/& + u& 0a1,8 !1a'#, " 0u!(%,(01,%al. Autocorrelación de un tramo sonoro
ay aproimadamente entre &0 y &2 muestras entre los picos. Eso signi!ca que la $%'u&'#a $u&"a0&(al " 0# 3,- !(á &(%
. + QQ H-
R1#(a a?,%a l %'#'#, a&(%#,% ',& u& (%a0, !,%", %a2a", & l 9'?%, 01l,S,%",.@a3F ,2!%3 u la au(,',%%la'#/& "'a 0u+ %á1#"a0&(.
Autocorrelación de un tramo sordo
P%u&(a!: a. ¿6u7 $%'u&'#a 1,! l (,&, $u&"a0&(al " !u 3,-8 ',01á%l, ',& l " !u ',01a4%,5 Eisten aproimadamente entre &0 y &2 muestras entre los picos, lo cual representa el periodo de la #recuencia #undamental. -i tomo &0 muestras entonces el periodo sería &.24&0563 segundos. -i tomo &2 muestras entonces el periodo sería &.4&0563 segundos. Eso signi!ca que la #recuencia #undamental de mi voz est entre '''.7 z y (00 z.
2. ¿6u7 ,'u%% 'ua&", ! 'al'ula la au(,',%%la'#/& " u&a !4al " %u#",5
La autocorrelaci"n de la señal de ruido no tiene un periodo #undamental.
A'(#3#"a" : TRANSKORMADA DE KOURIER LOCALIZADA Y ESPECTROGRAMA
U(#l#' la $u&'#/& !($( 1a%a ,2(&% la (%a&!$,%0a"a " K,u%#% l,'al#-a"a " la !4al " 3,01l,S,&,%,.@a3F. O2!%3 l,! $'(,! " u(#l#-a% 3&(a&a! " "#!(#&(,! (#1,! + l,&#(u"!.
tili*ando ventana #amming de 20 ms
tili*ando ventana #amming de 8 ms
tili*ando ventana #amming de %0 ms
tili*ando ventana artlett o triangular de 20 ms:
tili*ando ventana artlett o triangular de 8 ms:
tili*ando ventana artlett o triangular de %0 ms:
tili*ando ventana o1car o rectangular de 20 ms
tili*ando ventana o1car o rectangular de 8 ms
tili*ando ventana o1car o rectangular de %0 ms
P%u&(a: a. ¿6u7 $'(, (#& l u(#l#-a% l,! "#$%&(! (#1,! " 3&(a&a!8 a !u 1a%'% 'ual !%*a la 3&(a&a 0á! /1(#0a8 ',01a% l,! %!ul(a",! " la! "#$%&(! 3&(a&a!5 -i el tamaño de ventana es demasiado grande no podremos analizar el espectro de un #onema en concreto. -i es demasiado pequeño no tienes la su!ciente in#ormaci"n para determinar las características del #onema. 8on una ventana rectangular tenemos una atenuaci"n menor en las #recuencias que no #orman parte de los #ormantes de la señal, lo que di!culta el clculo de la #recuencia #undamental y de los propios #ormantes. Es por ello que se recomienda usar la ventana de amming con una longitud de entre 20 y 30 ms.
A'(#3#"a" : EL ESPECTROGRAMA
U(#l#' la $u&'#/& !1'(%,%a0 1a%a ,2(&% u& !1'(%,%a0a " 2a&"a a&'?a + ,(%, " 2a&"a !(%'?a " la !4al " 3,- 01l,S,&,%,.@a3F. Pu" ,2(&% u&a !&!a'#/& " 0a+,% ',&(#&u#"a" & l !1'(%,%a0a au0&(a&", l &0%, " 1u&(,! " la ( 'al'ula"a + l !,la1a0#&(, (01,%al " la! !u'!#3a! 3&(a&a! " a&ál#!#!. S#& 02a%,8 (&a & 'u&(a u &, ,2(&"%á 0a+,% %!,lu'#/&8 +a u ! (%a(a " u&a 0%a #&(%1,la'#/&. En anlisis de la voz a los espectrogramas de 9ourier que usan ventanas de corta duraci"n se les denomina Espectrogramas de :anda ;ncha, y a los que utilizan ventanas de mayor duracion se les denomina Espectrogramas de :anda Estrecha
spectrograma de banda anc!a usando ventana de #amming de 8 ms
spectrograma de banda estrec!a usando ventana de #amming de %0 ms
A'(#3#"a" : CRUCES POR CERO ZRC) •
En este sentido proponemos que se mida la taza de cruces por cero de señales arti!ciales seg2?pi?>@)24@A 8aso : una señal compuesta por la suma de dos tonos >uno de %a$a #recuencia y otro de alta #recuencia@ y=a&?cos>2?pi?>&@)24@ B a2?cos>2?pi?>&@)C@A
3asa cruces por cero de la -e)al de un solo 3ono:
4ruces por cero de la -e)al de la suma de dos 3onos:
•
Dedir la taza de cruces por cero por tramas ya sean sonoras, sordas y ruido. 3asa promedio de cruces por cero del ejemplo sonoro
3asa promedio de cruces por cero del ejemplo sordo
3asa promedio de cruces por cero del ejemplo ruido