You are on page 1of 38

______________________ Captulo 3 ______________________ Anlise de Fala

No captulo anterior foi descrito o processo de produo de fala e examinadas as caractersticas mais importantes dos sinais de fala utilizadas na maior parte das aplicaes em fala. Este captulo apresenta alguns dos mtodos de anlise dos sinais de fala que extraem essas caractersticas, convertendo o sinal num outro ou num conjunto de parmetros, capazes de o descrever de um modo simplificado. Os mtodos de anlise podem ser realizados no domnio do tempo, processando directamente o sinal de fala, ou no domnio da frequncia, depois de efectuada uma transformao espectral. Em qualquer dos casos, o objectivo ser o de obter uma representao do sinal que contenham a informao relevante no formato mais eficiente. Relativamente codificao e armazenamento, o objectivo eliminar a redundncia. Em termos do reconhecimento, o objectivo principal extrair um conjunto de parmetros que sejam consistentes para

30

3-Anlise de Fala

oradores diferentes e com pouca disperso para a mesma entidade a reconhecer (e.g., fonemas, classes de fonemas, palavras isoladas, etc.), ao mesmo tempo que exibam variaes suficientes entre essas entidades. Comearemos esta anlise por um dos mtodos mais poderosos de anlise e caracterizao de sinais de fala, o mtodo da predio linear. Atravs deste mtodo estimaremos a envolvente espectral e deste modo um modelo do tracto vocal. Seguem-se estimativas de outros parmetros alternativos na modelao do tracto vocal: os coeficientes LSF (Line Spectrum Frequency), os formantes e os cepstra. Seguidamente apresentaremos mtodos de estimao de parmetros da excitao do tracto vocal, embora na sua forma mais simples: deciso de vozeamento e estimao da frequncia fundamental. Finalmente apresentaremos mtodos de deteco do gnero do orador e de actividade de voz quando envolvido em rudo ou silncio.

3.1 Predio Linear


A predio linear tornou-se num dos mtodos dominantes na estimao de parmetros do sinal de fala, numa trama em que se considera o sinal estacionrio. A ideia bsica por detrs da predio linear a de que o valor de uma amostra pode ser aproximado (predito), por combinao linear dos valores das amostras anteriores, tirando partido da correlao entre estas. Os coeficientes de predio linear ou coeficientes LPC (Linear Predictive Coding) so estimados por minimizao do erro quadrtico entre a amostra actual e a sua predio. Ser apresentada a formulao desta estimao, baseada na codificao de sinais, e os resultados interpretados no domnio da frequncia e atravs da funo de autocorrelao. O filtro resultante modela o tracto vocal, pelo que so apresentadas analogias com o processo natural de produo de fala.

Predio Linear

31

A utilizao da predio linear no se limita codificao, sendo exemplos de outras aplicaes no processamento de fala o reconhecimento e sntese e a identificao e verificao do orador. Exemplos de aplicaes noutros campos so: a prospeco de petrleo atravs da anlise da vibrao da terra causada pela exploso de cargas de dinamite; o diagnstico mdico do crebro atravs da anlise de sinais do electroencefalograma; e a codificao digital de imagem. Uma viso mais general da predio linear pode ser encontrada por exemplo em [Makhoul (75)].

3.1.1 Codificao por predio - princpios gerais


Na figura 3.1 apresentado o esquema bsico de um codificador, emissor e receptor, baseado em predio. O sinal de entrada s[n] est codificado em modulao por cdigo de impulsos (PCM - Pulse Code Modulation) uniforme com um nmero suficiente de bits por amostra (12-16) para se considerar com qualidade indistinguvel do original. este sinal que ser processado de modo a ser representado com um dbito binrio inferior.

Figura 3.1 Emissor de um codificador por predio. Q/C e C-1 representam respectivamente um quantificador seguido de um codificador e um codificador inverso PCM. O emissor inclui um receptor apresentado dentro do tracejado.

32

3-Anlise de Fala

O sinal predito atravs das amostras anteriores, mas de modo a obter-se uma rplica desta predio no receptor so utilizadas as amostras quantificadas sq[n] e no o sinal original. transmitido para o receptor, aps quantificao, o erro ou resduo de predio e[n], dado pela diferena entre a amostra presente e a sua predio sp[n]. O sinal de sada sintetizado somando a predio com o resduo aps quantificao inversa. Na hiptese deste resduo no sofrer qualquer degradao com a quantificao, o sinal de sada sq[n] igual ao sinal de entrada s[n]. Como existe sempre um erro de quantificao dado pela diferena e[n]-eq[n], o rudo de quantificao n[n] do sinal de sada afectado exactamente pela mesma quantidade,
n [n] = s [n ] sq [n] = (s p [n ] + e [n]) (eq [n ] + s p [n ]) = e [n ] eq [n ]

(3.1)

A relao sinal-rudo (SNR - Signal to Noise Ratio) de quantificao, corresponde por definio relao entre as potncias do sinal de entrada Ps e do rudo de quantificao Pn, vir,
SNR = P Ps Ps Pe = = Gp e Pn Pn Pe Pn

(3.2)

em que Pe a potncia do resduo de predio e Gp o ganho de predio. Pe/ Pn a relao sinal-rudo de quantificao em PCM do resduo de predio. A relao sinal-rudo ento calculada atravs do produto do ganho de predio pela relao sinal-rudo de quantificao em PCM do resduo. Assumindo que esta relao sinal-rudo igual conseguida pela codificao directa em PCM do sinal de entrada utilizando o mesmo nmero de bits de codificao (por exemplo, como ser visto na seco 6.2, utilizando PCM companding), resulta do esquema preditor uma melhoria na relao sinal-rudo desde que,

Predio Linear

33

Gp =

Ps >1 Pe

(3.3)

Para um dado sinal de entrada, Gp ser tanto maior quanto menor for a potncia do resduo de predio. Os sinais de fala so no estacionrios mas podem ser considerados quase estacionrios (localmente estacionrios) devido variao lenta do tracto vocal. Assim, o ganho de predio ser dependente das caractersticas acsticas locais do sinal de fala e a qualidade do sinal de sada ter flutuaes temporais. O ganho de predio Gp pode ser calculado localmente dividindo o sinal em tramas de dimenso tpica entre os 5 e os 30 ms. Gp em cada trama calculado atravs da relao de potncias ou da relao de energias localizadas, entre o sinal de entrada e o resduo de predio.

3.1.2 Preditor de primeira ordem unitrio


Uma vez que o sinal de fala tem uma forte caracterstica passa-baixo, espera-se no haver uma variao muito forte entre duas amostras consecutivas, pelo que um preditor possvel assume a forma,
s p [n ] = sq [n 1] ,

(3.4)

e uma estimativa da energia localizada do respectivo resduo de predio vir:


Ee m =
m + N 1 n=m

e 2 [n ] =

m + N 1 n=m

(s[n] sq [n 1])2 ,

(3.5)

em que m a primeira amostra da trama e N a sua dimenso em nmero de amostras. Por simplicidade de notao deixaremos de utilizar o ndice que referencia a trama, pelo que Ee representar a

34

3-Anlise de Fala

estimativa da energia do resduo de predio na trama em anlise. Esta simplificao na notao ser estendida a outros parmetros. Desenvolvendo o quadrado da equao (3.5) e assumindo que a energia do sinal aps quantificao igual do sinal original Es, vir, Ee =
m + N 1 n=m

(s 2 [n] + s 2 [n 1] 2s [n]sq [n 1]) 2 E s 2 Rs [1] ,


q

(3.6)

em que Rs[k] uma estimativa, na janela de anlise, da funo de autocorrelao do sinal de entrada. Designando por rs[k] a funo de autocorrelao normalizada pela energia, o ganho de predio vir,
Gp = Es 1 = , Ee 2(1 rs [ 1])

(3.7)

pelo que haver um ganho de predio desde que, rs [ 1] > 0,5 . (3.8)

Na figura 3.2 so ilustradas as formas de onda de uma trama de sinal de fala com a durao de 22,5 ms e o respectivo resduo de predio. O sinal amostrado a 8000 amostras por segundo, valor normalizado para a denominada banda telefnica. Pode verificar-se a diminuio da gama dinmica do resduo em relao ao sinal original, sendo susceptvel de uma melhor quantificao. O ganho de predio de 14,8 dB, o equivalente a mais de 2 bits de quantificao (6,02 dB por bit de quantificao, como se ver atravs da equao 6.4). Em relao a um codificador PCM pode ento codificar-se o sinal com melhor qualidade com o mesmo dbito binrio, ou assumindo a mesma qualidade reduzir neste caso 2 bits por amostra, o que equivale a uma compresso de 16 kbit/s (2x8000). no entanto evidente que o codificador no tem este ganho em todas as tramas.

Predio Linear

35

x 10 1
Amplitude

Sinal de fala

0 -1 -2 5
x 104

10

15
t [ms]

20

Resduo de predio - preditor de primeira ordem unitrio

Amplitude

0 -1 -2

10

12

14 16 t [ms]

18

20

22

Figura 3.2 Em cima, trama de 22,5 ms de um sinal de fala. Em baixo, resduo de predio calculado com um preditor de primeira ordem unitrio.

3.1.3 Preditor de primeira ordem adaptativo


Um outro possvel preditor de primeira ordem ser descrito por,
s p [n ] = asq [n 1] ,

(3.9)

sendo a o coeficiente de predio. Este coeficiente estimado de modo a maximizar o ganho de predio, o que para um dado sinal de entrada equivalente a minimizar a energia do resduo de predio, Ee =
m + N 1 n=m

(s [n] as q [n 1])2 E s + a 2 E s 2aRs [1] ,

(3.10)

em que novamente se assume que o sinal aps quantificao muito prximo do sinal de entrada.

36

3-Anlise de Fala

Para calcular o coeficiente de predio a que minimiza Ee,


E e = 2aE s 2 Rs [ 1] = 0 , a

(3.11)

pelo que o coeficiente de predio a vir,


a= Rs [ 1] = rs [ 1] . Es

(3.12)

De notar que o coeficiente de predio dever ser recalculado no emissor trama-a-trama e enviado para o receptor, pelo que o nmero de bits que se poupa utilizando predio adaptativa dever ser suficiente para quantificar este parmetro e ainda obter uma compresso na representao do sinal. Das equaes (3.10) e (3.12), o ganho de predio vir, Gp =

1 rs [ 1]2

(3.13)

Quando a correlao nula, o ganho de predio atinge o valor mnimo igual unidade, o coeficiente de predio nulo e o erro de predio igual ao sinal de entrada, pelo que o codificador degenera num codificador PCM. Ao contrrio do que quando se utiliza um preditor unitrio, o codificador com este preditor nunca tem um desempenho inferior a um codificador PCM.

Predio Linear

37

3.1.4 Predio linear de sinais de fala


A ordem de predio pode ser estendida at um valor arbitrrio

p, sendo o preditor definido pela combinao linear das ltimas p


amostras1,
p

s p [n ] = ak s [n k],
k =1

(3.14)

e a energia do erro de predio vir,

Ee =

m + N 1 n=m

s [n ] + ak s [n k] . k =1
p

(3.15)

Os coeficientes de predio ak, k=1,..,p, so novamente estimados minimizando a energia do resduo de predio,

Ee =0 ak

k=1,...,p ,

(3.16)

pelo que resulta depois de alguma manipulao algbrica, juntamente com a equao (3.15), no sistema de p equaes a p incgnitas

k =1

ak s[n k]s[n i] = s[n]s[n i]


n=m n=m

m + N 1

m + N 1

i=1,...,p,

(3.17)

que equivalente a, Rs [i ] = a k Rs [k i ]
k =1 p

i=1,...,p.

(3.18)

Na figura 3.3 apresentada a mesma trama da figura 3.2, sendo o resduo de predio agora calculado com um preditor de ordem 10, tpico das aplicaes de codificao de sinais de fala amostrados a 8
1

O sinal (-) que afecta a equao (3.14) provm da representao da equao s


k =0

diferenas atravs de

bk x[n k] = ak y [n k]
k =0

p1

p2

com a0=1.

38

3-Anlise de Fala

kHz. O ganho de predio aumenta, pelo que o resduo de predio exibe uma menor correlao entre amostras consecutivas e uma menor gama dinmica do que quando utilizado um preditor unitrio.
x 10 1 Amplitude 0 -1 -2 2 x 10 1 Amplitude 0 -1 -2 2 4 6 8 10 12 14
t [ms]
4 4

Sinal de fala

10

12

14
t [ms]

16

18

20

22

Resduo de predio linear - ordem 10

16

18

20

22

Figura 3.3 Em cima, trama de 22,5 ms de um sinal de fala. Em baixo, respectivo resduo de predio calculado com um preditor linear adaptado de ordem 10.

Desenvolvendo o quadrado da equao (3.15) e tendo em ateno a equao (3.18), o ganho de predio vir, Gp =

1 1 + a k rs [k ]
k =1 p

(3.19)

ilustrado na figura 3.4 funo da ordem de predio, para a mesma trama das figuras 3.2 e 3.3.

Predio Linear

39

25

20

15 Gp(p) dB 10 5 0 0 2 4 6 8 10 12 ordem de predio 14 16 18 20

Figura 3.4 Andamento do ganho de predio para uma trama vozeada de 22,5 ms, em funo da ordem de predio.

3.1.5 Filtro de sntese de predio linear


Atravs do esquema de blocos da figura 3.1 e da equao (3.14), o sinal sintetizado descrito atravs da equao de filtragem,

s[n ] = ak sq [n k] + eq [n ].
k =1

(3.20)

Assumindo novamente que a energia do sinal quantificado igual do sinal de entrada e aplicando transformada z a ambos os membros da equao (3.20), a funo de transferncia do filtro correspondente ser descrita por,

H(z) =

S(z) 1 = = U(z) A(z)

G 1+ ak z
p k =1 k

(3.21)

40

3-Anlise de Fala

em que se assume um sinal de entrada u[n] com potncia unitria. O filtro resultante s tem plos e a respectiva resposta impulsiva h[n] dada por,

h [n ] = ak h [n k] + G [n ] .
k =1

(3.22)

Multiplicando ambos os termos da equao (3.22) por h[n-i] e somando em n, resulta a seguinte recurso para a autocorrelao Rh(i) da resposta impulsiva do filtro LPC, Rh [i ] = a k Rh [i k ]
k =1 p

i0.

(3.23)

sendo o valor da autocorrelao de ordem zero dado por, Rh [0] = a k Rh [k ] + G 2


k =1 p

(3.24)

Impondo a condio de que a energia da resposta impulsiva do filtro dever ser igual energia do sinal de entrada e tomando em considerao a parecena entre (3.18) e (3.23), conclui-se que, Rh [i ] = Rs [i ] 0 i p , (3.25)

pelo que se pode reinterpretar a estimao dos parmetros de predio linear como a estimao dos coeficientes de um filtro s de plos (modelo auto-regressivo), tal que os p+1 primeiros valores da autocorrelao da respectiva resposta impulsiva sejam iguais aos do sinal que se quer modelar. Das equaes (3.24) e (3.25) obtm-se ainda o ganho G,

G = Rs [0] + a k Rs [k ] .
k =1

(3.26)

Predio Linear

41

3.1.6 Estimao da envolvente espectral


Atravs da equao 3.25 demonstrou-se que os primeiros p+1 valores da funo de autocorrelao da resposta impulsiva do filtro de predio linear so idnticos aos da funo de autocorrelao do sinal que se quer modelar. Dado que so os primeiros valores da funo de autocorrelao que contribuem primordialmente para a definio da envolvente espectral, sendo perdida a eventual estrutura harmnica conferida pela periodicidade do sinal de entrada, existe uma aproximao da resposta em frequncia do filtro de predio linear envolvente espectral do sinal a modelar.
Periodogramas Periodograma [dB] 70 60 50 40 30 0 0.5 1 1.5 2 2.5
f [KHz]

3.5

Autocorrelaes 0.8 0.6 r(k) 0.4 0.2 0 -0.2 2 4 6 8 10 12 14 16 18 20 22

t [ms]

Figura 3.5 Em cima, periodograma do sinal de entrada e da resposta do filtro de predio linear de ordem 10. Em baixo, funo de autocorrelao normalizada do sinal de entrada e da correspondente resposta do filtro de predio linear.

Esta caracterstica do filtro LPC ilustrada na figura 3.5 para a mesma trama das figuras anteriores, sendo tambm ilustrada a

42

3-Anlise de Fala

coincidncia, para valores at ordem de predio, entre a funo de autocorrelao normalizada do sinal de entrada e da resposta do filtro LPC. Para valores de ordem superior a autocorrelao da resposta impulsiva tende para zero, enquanto a autocorrelao do sinal reproduz a mesma periodicidade da entrada.

3.1.7 Modelo do tracto vocal


O filtro de predio linear, ao modelar a envolvente espectral do sinal, no entra em conta com a eventual estrutura harmnica da excitao vozeada. Esta tem uma caracterstica essencialmente de baixa frequncia que pode ser modelada com dois plos reais prximos de

z=1, que como mostrado na figura 3.6 produz um declive passa-baixo


ao longo do espectro do sinal. A excitao no vozeada contudo do tipo rudo branco, com espectro plano. Por outro lado a radiao nos lbios tem uma caracterstica essencialmente passa-alto de primeira ordem. Esta poder ser modelada por um zero real muito perto de z=1, eliminando a contribuio de um dos plos da excitao nas zonas vozeadas. De modo a eliminar a contribuio do segundo plo, diminuindo a gama dinmica da envolvente espectral, normalmente introduzido antes da estimao dos parmetros do modelo um filtro de pr-nfase das altas frequncias, sendo estas melhor modeladas. Este filtro de pr-nfase tem um zero real muito prximo da origem e dado por,

P (z) = 1 z 1 ,

(3.27)

em que tem um valor tpico entre 0,9 e 1. Na sntese, colocado sada um filtro de de-nfase com a caracterstica inversa da representada na equao 3.27.

Predio Linear

43

Periodograma resposta do filtro de predio linear - zona vozeada 70 Periodograma [dB] 60 50 40

0.5

1.5

2.5
f [KHz]

3.5

Periodograma resposta do filtro de predio linear - zona no vozeada Periodograma [dB] 50 40 30 20 0 0.5 1 1.5 2 2.5
f [KHz]

3.5

Figura 3.6 Periodograma da resposta impulsiva do filtro LPC. Em cima, trama vozeada. Em baixo, trama no vozeada.

Dado que a aco conjunta da radiao nos lbios e do filtro de pr-nfase tendem a anular o declive espectral provocado pela excitao vozeada, o filtro de predio linear modela apenas o tracto vocal.

3.1.8 Mtodos de anlise


De modo a se estimar os coeficientes de predio linear deve-se resolver o sistema de p equaes a p incgnitas descrito pela equao 3.18, havendo para isso o mtodo lattice e dois mtodos baseados em definies diversas dos limites dos somatrios: o mtodo da autocorrelao e o mtodo da covarincia.
3.1.8.1 Mtodo da autocorrelao

Considere-se que o sinal s[n] nulo fora da janela de anlise, o que pode ser descrito por,

44

3-Anlise de Fala

s m [n] = s [m + n] w[n]

(3.28)

sendo w[n] uma janela de durao N, com valores zero fora do intervalo 0 n N-1. Esta suposio leva a que o erro de predio no incio da janela seja grande, j que se tenta predizer uma amostra custa de amostras cujo valor zero e estende-se o erro p amostras depois do fim da janela, predizendo amostras com valor zero custa de amostras com valor no zero. Os limites dos somatrios da equao 3.17 sero entre 0 e N+p-1 e os somatrios correspondero funo de autocorrelao R[i] do sinal depois de multiplicado pela janela. Para minimizar os erros no incio e no fim da trama dever ser usada uma janela que tenda para zero nos seus extremos, como por exemplo uma janela de Hamming, 2 n w [n] = 0,54 0,46 cos . N 1 (3.29)

Esta janela minimiza tambm o efeito da convoluo no domnio da frequncia entre a transformada do sinal e a transformada da janela (equao 3.28), quando comparado com a utilizao de uma janela rectangular. Com estes considerandos, o sistema de equaes (3.18) colocado sobre a forma matricial d origem a uma matriz de Toeplitz [pxp], em que todos os coeficientes ao longo das diagonais so iguais:

..... R[p-1] ..... R[p-2] ..... R[p-3] ..... ..... R[p-1] R[p-2] R[p-3] ..... R[0]
R[0] R[1] R[2] R[1] R[0] R[1] R[2] R[1] R[0] ..... ..... .....

a1 a2 a3 ..... ap

R[1] R[2] R[3] ..... R[p]

(3.30)

Predio Linear

45

Uma das vantagens do mtodo da autocorrelao a de que o filtro resultante sempre estvel. Sendo a matriz de Toeplitz, ainda possvel resolver este sistema de equaes de um modo recursivo e portanto computacionalmente eficiente. Levinson props um desses algoritmos, reformulado mais tarde por Robinson [Markel (74)]. Mas um dos mtodos mais eficientes foi proposto por Durbin [Makhoul (75)]. Este algoritmo, que tem como entrada os valores da autocorrelao do sinal de fala at ordem p, pode ser descrito do modo seguinte: E ( 0) = R [0]
i 1 ( i 1) R[i ] a j R[i j ] j =1 1ip ki = ( i 1) E

(3.31a)

(3.31b) (3.31c)

( i) ai = ki

i 1) (i 1) aj = a( ki a i j j

1ji-1

(3.31d) (3.31e)

E (i) = (1 ki2 )E (i 1)

As equaes 3.31b) a 3.31e) so resolvidas recursivamente para i=1,2,...,p e a soluo final dada por,
p) a j = a( j

1jp.

(3.32)

De notar que utilizando esta recurso os coeficientes dos preditores para ordens inferiores a p so todas calculados. Os valores intermdios ki, 1ip, representam os coeficientes de reflexo do tracto vocal quando modelado por p seces sem perdas. Estes coeficientes so tambm conhecidos por coeficientes de correlao parcial (PARCOR). possvel apenas com estes coeficientes determinar os coeficientes

46

3-Anlise de Fala

LPC. Atravs da recurso inversa, tambm possvel recalcular os coeficientes de reflexo a partir dos coeficientes LPC.
3.1.8.2 Mtodo da covarincia

Uma alternativa para a minimizao do erro Ee numa trama de dimenso N ser delimitar o somatrio das equaes 3.17 entre 0 e N-1. Se para alm desta imposio nada se supuser sobre o sinal fora dessa trama, os somatrios deixam de representar a correlao do sinal multiplicado pela janela, como no mtodo da autocorrelao, para representarem a covarincia entre dois sinais muito parecidos mas no iguais. A matriz resultante embora simtrica deixa de ser de Toeplitz, pelo que a sua soluo computacionalmente mais exigente e no garantida a estabilidade do filtro resultante. Melhoramentos ao mtodo da covarincia tornam o filtro LPC estvel. A matriz resultante sofre uma decomposio de Cholesky [Rabiner (78)], resultando numa matriz triangular inferior, que d por sua vez origem a coeficientes de reflexo ki. A estabilidade garantida pela condio:
ki < 1 .

(3.33)

O mtodo da covarincia mais exacto que o mtodo da autocorrelao uma vez que evita os erros no incio e fim da trama, embora para tramas de maior dimenso (20 ms) os dois mtodos se equiparem, pois o erro cometido pelo mtodo da autocorrelao torna-se numa percentagem pouco significativa do erro total.
3.1.8.3 Mtodo lattice

Os mtodos da autocorrelao e da covarincia so mtodos que estimam os coeficientes de LPC em dois passos: o clculo da matriz de correlao e a soluo de um conjunto de equaes lineares. O mtodo lattice uma formulao em que estes dois passos esto combinados

Coeficientes LSF

47

num mtodo recursivo para calcular os parmetros de predio linear. Uma explicao detalhada deste mtodo pode ser encontrada por exemplo em [Rabiner (78)].

3.2 Coeficientes LSF


O preditor linear pode ser definido com base num conjunto alternativo de coeficientes denominados coeficientes LSF (Line Spectrum Frequencies), obtidos por transformao. Os coeficientes LSF foram introduzidos por Itakura em 1975 [Itakura (75)], tendo sido as suas propriedades estudadas mais tarde por Soong e Juang [Soong (84)]. Por definio os coeficientes LSF so as frequncias correspondentes s razes de dois polinmios de ordem p+1, P(z) e Q(z), derivados do filtro inverso de predio linear A(z), de ordem p. P(z) corresponde ao tracto vocal com a fonte glotal completamente fechada (coeficiente de reflexo kp+1=-1) e Q(z) representa o tracto vocal com a fonte glotal completamente aberta (coeficiente de reflexo kp+1=1). Como se ver na seco 3.3.3, estes coeficientes tm informao sobre os formantes do tracto vocal. Atravs da recurso do clculo dos coeficientes de predio linear para uma ordem superior,
Ap +1 ( z ) = Ap ( z ) k p z ( p +1) A( z 1 ) ,

(3.34)

vir: A(z 1 ) P (z) = A(z) + z ( p + 1) A(z 1 ) = A(z)1 + z ( p + 1) A(z) A(z 1 ) Q(z) = A(z) z ( p + 1) A(z 1 ) = A(z)1 z ( p + 1) , A(z)
(3.35a)

(3.35b)

48

3-Anlise de Fala

representando os coeficientes LSF as frequncias correspondentes s razes destes dois polinmios. O filtro inverso A(z) recuperado de P(z) e Q(z) atravs de:

A(z) = Definindo H(z) como:

P (z) + Q(z) . 2

(3.36)

H(z) = z

( p + 1)

A(z 1 ) , A(z)

(3.37)

pode-se calcular as razes de P(z) impondo a condio de H(z)=-1 e as razes de Q(z) impondo H(z)=1. H(z) tem a caracterstica de um filtro passa-tudo com ganho unitrio,
H(z) = 1 para z = 1 ,

(3.38)

pelo que todos os coeficientes LSF se situam sobre o crculo unitrio. Os polinmios P(z) e Q(z) tm respectivamente uma raiz em z=-1 e em

z=1. Factorizando H(z) [Soong (84)],


H(z) = z 1 (z k z 1) , z z k k =1
p

(3.39)

em que z k = rk e jwk k=1,...,p correspondem s razes de A(z). A fase de

H(w) pode ser expressa atravs de:

(w) = ( p + 1)w 2 tan 1


k =1

rk sin(w wk ) , 1 rk cos(w wk )

(3.40)

e o atraso de grupo, definido como o simtrico da derivada da fase, pode ser expresso por,

( w) =

1 fs

p 1 rk2 1 + 2 k=1 1 + r 2r cos(w w ) , k k k

(3.41)

Estimao de formantes

49

sendo uma funo sempre positiva desde que o filtro seja estvel, ou seja, rk<1, pelo que (w) uma funo montona decrescente. Dado que o mdulo de H(w) sempre igual a 1, os coeficientes LSF podem ainda ser calculados impondo a condio:

(w) = m ,

m = 1...p ,

(3.42)

estando os coeficientes LSF entrelaados, ou seja, medida que a frequncia aumenta ocorre alternadamente uma raiz de P(z) e outra de

Q(z). Esta condio suficiente para manter a estabilidade do filtro de predio linear aps uma eventual quantificao. A transmisso dos coeficientes LSF em vez dos coeficientes LPC, em sistemas de codificao, alis a principal utilizao destes, j que a quantificao directa dos coeficientes LPC pode resultar num filtro instvel.

3.3 Estimao de formantes


As frequncias dos formantes e respectivas larguras de banda so alguns dos parmetros espectrais que se podem extrair do sinal de fala. A sua importncia deve-se relao que tm com a posio dos articuladores na fase de produo de fala e com a inteligibilidade da fala, sendo largamente utilizados na codificao, sntese e reconhecimento de sinais de fala.

3.3.1 Mtodo dos mximos do espectro


As frequncias dos formantes podem ser estimadas atravs dos mximos locais do espectro de curta durao (figura 2.3), calculado por exemplo atravs da Transformada de Fourier localizada ou pela envolvente espectral produzida por predio linear. Este mtodo de anlise contudo pouco preciso, principalmente utilizando a Transformada de Fourier localizada, pois a energia do espectro est

50

3-Anlise de Fala

concentrada em mltiplos da frequncia fundamental. Para vozes femininas e de crianas, em que a frequncia fundamental elevada, este problema agrava-se pois s por acaso a frequncia do formante situa-se perto de um mltiplo de F0. Quando a largura de banda do formante menor que a frequncia fundamental, esta pode mesmo no incluir nenhuma harmnica.

3.3.2 Mtodo das razes do filtro de predio linear


Um outro processo de estimao dos formantes envolve a anlise das razes do denominador do filtro de predio linear, pois uma raiz pode ser identificada como formante se apresentar uma largura de banda suficientemente estreita. Decompondo o polinmio do denominador do filtro LPC em sistemas ressonantes de segunda ordem, a funo de transferncia de cada k-simo sistema ressonante, correspondente k-sima raiz rkejk e respectiva raiz complexa conjugada, descrita por,
Tk (z) = Ak , z )(1 rke jk z 1 )

(1 rke

jk 1

(3.43)

O valor de Ak calculado de modo a que o sistema tenha um ganho unitrio para z=1 atravs de:
Ak = (1 rke jk )(1 rke jk ) ,

(3.44)

As frequncias de ressonncia Fk e as larguras de banda Bk de cada sistema ressonante podem ser obtidas atravs de [Atal (71)]: Fk = k 2 Ts
ln(rk ) , Ts (3.45) (3.46)

Bk =

Estimao de formantes

51

pelo que Fk corresponder a um formante se Bk for suficientemente estreita, ou equivalentemente, se rk apresentar um valor perto da unidade. Repare-se que cada dois plos do filtro LPC correspondem a um formante, pelo que a ordem de anlise dever ser de pelo menos 2 vezes o nmero mximo de formantes esperado na largura de banda considerada do sinal. Para sinais limitados a 4 kHz so esperados 3 a 4 formantes, pelo que a ordem de anlise dever ser no mnimo de 8. Em sistemas de codificao em que se modela o tracto vocal atravs do filtro LPC geralmente utilizado um valor tpico de 10, servindo os dois plos adicionais para melhor modelar o declive espectral.

3.3.3 Mtodo dos coeficientes LSF


A converso de coeficientes de predio linear em coeficientes LSF converte uma raiz de A(z) num par de razes no crculo unitrio. Uma das caractersticas dos coeficientes LSF a de se aproximarem da respectiva raiz de A(z). A tabela 3.1 ilustra esta aproximao. simulado um filtro A(z) a partir da definio arbitrria das suas razes, sendo os respectivos coeficientes LSF determinados com uma resoluo de 1 Hz, atravs da equao (3.42).

ordem
1 2 3 4 5

Fk
200 600 1600 2700 3400

Bk
77,56 130,62 568,23 130,62 908,27

rk
0,97 0,95 0,80 0,95 0,70

k
0,16 0,47 1,26 2,12 2,67

P
195 581 1397 2500 2899 4000

Q
0 312 727 1794 2702 3422

P*
364 1091 1818 2545 3272 4000

Q*
0 727 1455 2181 2909 3636

Tabela 3.1 Relao entre as razes de um filtro A(z) e os coeficientes LSF, calculados com uma resoluo de 1 Hz. P* e Q* representam os coeficientes LSF para um sinal com espectro plano (fs=8kHz, p=10).

52

3-Anlise de Fala

A figura 3.7 ilustra, para a simulao descrita na tabela 3.1, a resposta de fase (f) e o atraso de grupo (f) correspondentes ao filtro

H(f), baseados respectivamente nas equaes 3.40 e 3.41.


0 [rad] -10 -20 -30 -40 0 500 1000 1500 2000 2500 3000 3500 4000 f [Hz]

10 [ms]

500

1000

1500

2000

2500

3000

3500 4000 f [Hz]

Figura 3.7 Resposta do filtro H(f) da simulao da tabela 3.1 Em cima: resposta da fase. Em baixo: atraso de grupo. Os marcam as frequncias das razes de A(z).

Se o espectro de entrada for plano, os coeficientes LSF esto separados uniformemente entre 0 e fs/2. Se uma raiz de A(z) apresentar um valor do seu mdulo perto da unidade, a largura de banda estreita (equao (3.46)), sendo muito provvel que este plo corresponda a um formante. Nesta situao, como ilustrado na figura 3.8, tambm correspondente simulao ilustrada na tabela 3.1, os coeficientes LSF aproximam-se da respectiva raiz de A(z), uma vez que a variao da fase muito grande nesta zona (o atraso de grupo grande volta de wk) [Kang (85)].

Anlise cepstral

53

2 KHz 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -1

-0.8

-0.6

-0.4

-0.2 0 0.2 Crculo Unitrio

0.4

0.6

0.8

Figura 3.8 Coeficientes LPC e LSF. Os * marcam as razes de A(z), correspondentes simulao descrita na tabela 3.1; Os marcam as razes de P(z) e os s razes de Q(z). O semi-plano inferior corresponde imagem do semi-plano superior.

No caso extremo de uma raiz ter mdulo unitrio, este e os coeficientes LSF respectivos coincidiriam. Pelo contrrio, se uma raiz de

A(z)

apresentar

um

valor

baixo

em

mdulo,

ser

grande

correspondente largura de banda e a sua contribuio traduzir-se- apenas na inclinao espectral, estando as razes correspondentes de

P(z) e Q(z) afastadas. Obviamente, poder ainda existir interaco


entre plos consecutivos do filtro de predio linear, que contribua tambm para a definio de formantes ou para a inclinao espectral.

3.4 Anlise cepstral


O cepstrum de um sinal definido como a transformada inversa de Fourier2 do logaritmo do espectro do sinal. Para um espectro S(w)
2

Originalmente definida como a T.F. directa embora a inversa seja hoje a mais utilizada.

54

3-Anlise de Fala

(raiz quadrada da funo espectral de potncia), a representao em srie de Fourier de logS(w) expressa atravs de,

log S (w) =
sendo

c e
n = n

jwn

(3.47a)

cn =

1 2

log(S (w))e

jwn

dw ,

(3.47b)

em que cn = c-n so reais, definidos como coeficientes cepstra reais ou simplesmente coeficientes cepstra. Note-se que,

c0 =

1 2

log S (w)dw .

(3.48)

Uma das vantagens da utilizao dos coeficientes cepstra a facilidade com que se pode separar a excitao do tracto vocal deste ltimo, devido operao logartmica que transforma o produto no domnio da frequncia na soma das duas componentes. Assim, os coeficientes cepstra podem ser decompostos por,
e v cn = cn + cn ,

(3.49)

em que ce e cv correspondem respectivamente aos coeficientes cepstra da excitao e da resposta do filtro que modela o tracto vocal, correspondendo os primeiros aos valores de ordem mais elevada e os segundos aos valores de ordem mais baixa de cn. Quando o sinal modulado atravs de um filtro de fase mnima s de plos, correspondente ao filtro preditor linear, os coeficientes

cepstra, que neste caso so denominados de coeficientes cepstra de


LPC, so obtidos pelas equaes:

Anlise cepstral

55

cn = an

1 n1 k ck ank n k=1

pn>0

(3.50a)

c 0 = log G 2

( )

(3.50b)

cn =

1 n 1 k ck ank n>p n k=1

(3.50c)

em que a0=1, G o ganho do filtro LPC e p a ordem do filtro. Para um par de espectros S(w) e S(w), possvel aplicando o teorema de Parseval relacionar a distncia euclidiana cepstral (erro quadrtico) com a distncia rms do logaritmo espectral atravs de:
2 1 (w) dw = (c n c n )2 , ( ) log S w log S 2 n =1

(3.51)

sendo cn os coeficientes cepstra correspondentes a S(w) e cn os coeficientes correspondentes a S(w). Repare-se que no foi considerado o termo c0 correspondente energia. Os coeficientes cepstra so utilizados com sucesso no reconhecimento. De modo a associar diferentes pesos a cada coeficiente, o termo do lado direito da equao 3.51 alterado para,

W (n)(c
n =0

) , cn
2

(3.52)

sendo W(n) a janela que pesa os diferentes coeficientes cepstrais. Uma das janelas mais utilizadas, exemplificada na figura 3.9, a da meia arcada sinusoidal,

W (n ) = 1 +

L n sin 2 L

0<nL,

(3.53)

correspondendo L ordem de truncatura no clculo dos coeficientes

cepstra, tipicamente entre 10 e 16.

56

3-Anlise de Fala

1+L/2 w(n)

Figura 3.9 Exemplo de janela de pesos dos coeficientes cepstra utilizada no reconhecimento de fala.

3.5 Estimao da Frequncia Fundamental


Os limites possveis de vibrao das cordas vocais situam-se aproximadamente entre os 50 e os 500 Hz. As frequncias mais baixas so tpicas das vozes graves masculinas e as frequncias mais altas so tpicas das crianas e de algumas vozes femininas, mais agudas. Existem vrios mtodos descritos na literatura para a deteco de vozeamento e estimao da frequncia fundamental numa trama, mas basicamente ou utilizam mtodos no domnio do tempo, no domnio da frequncia, ou mistos. Seguidamente descrevem-se sucintamente alguns desses mtodos, podendo-se encontrar uma descrio e sua comparao mais pormenorizada por exemplo em Rabiner [Rabiner (76)] ou no captulo 14 [Talking (95)] do livro [Kleijn (95)].

3.5.1 Mtodo da Autocorrelao


Como mostra a figura 3.10, a periodicidade da forma de onda encontra-se tambm presente na funo de autocorrelao. Se o primeiro valor mximo da funo de autocorrelao, normalizado pela energia do sinal e procurado dentro dos limites possveis de vibrao das cordas vocais, apresentar um valor razovel (e.g. maior que 0,3),

Estimao da Frequncia Fundamental

57

ento a trama considerada vozeada e o valor da frequncia fundamental estimado como o valor dessa periodicidade.
x 104 1 Amplitude 0 -1 -2 2 4 6 8 10 12 14 16 t [ms] 18 20 22 Sinal de Entrada

Autocorrelao 0.8 0.6

r(k)

0.4 0.2 0 -0.2 2 4 6 8 10 12 14 16 t [ms] 18 20 22

Sinal de Entrada 4000 2000 Amplitude 0 -2000 -4000 2 4 6 8 10 12 14 16 t [ms] 18 20 22

Autocorrelao 0.5

r(k)

-0.5

10

12

14

16 t [ms]

18

20

22

Figura 3.10 Em cima: Zona Vozeada e respectiva funo de autocorrelao normalizada. Em baixo: Zona no vozeada e respectiva funo de autocorrelao normalizada.

Uma vez que a frequncia fundamental tem um valor baixo e pode existir uma componente no vozeada forte nas frequncias mais

58

3-Anlise de Fala

elevadas, o sinal deve ser previamente filtrado por um filtro passa-baixo com frequncia de corte a cerca de 900 Hz [Rabiner (77)]. Embora os sinais de fala tenham geralmente mdia nula, possvel encontrar uma componente DC localizada na trama de anlise, que deve tambm ser retirada antes do clculo da autocorrelao. Embora este mtodo seja razoavelmente robusto na presena de rudo, tem como principal desvantagem a necessidade de utilizar janelas relativamente grandes (2 vezes o mximo perodo possvel), que introduzem maior atraso e tornam o mtodo sensvel s variaes entre perodos, nomeadamente s variaes de amplitude. Uma segunda desvantagem prende-se com a diminuio do intervalo de clculo, medida que se aumenta o perodo candidato, que faz variar a imunidade ao rudo e s variaes entre perodos e enfatiza as harmnicas coincidentes com o primeiro formante do tracto vocal. O efeito dos formantes pode ser atenuado calculando a funo de autocorrelao sobre o resduo de predio de LPC em vez do prprio sinal, que mantm a mesma periodicidade (figura 3.3) do sinal mas em que retirada a contribuio dos formantes dada pelo filtro LPC. A deciso de vozeamento pode tomar em considerao outras caractersticas, nomeadamente o nmero de passagens por zero. Se este valor for grande (e.g. maior que 2 passagens por milisegundo [Markel (74)]) a trama considerada no vozeada. Outras caractersticas [Ribeiro (91-b)] a ter em conta so: a relao entre a energia de baixas e altas frequncias, j que para tramas vozeadas o espectro apresenta o tpico declive espectral passa-baixo proveniente da vibrao da glote (figura 3.6); e a grande correlao com as tramas anteriores, havendo a tendncia para se mudar a deciso apenas quando h fortes indcios nesse sentido.

Estimao da Frequncia Fundamental

59

3.5.2 Mtodo da funo de correlao cruzada normalizada


A funo de correlao cruzada normalizada

(NCCF

normalised cross-correlation function) ultrapassa as dificuldades da


funo de autocorrelao na estimao da frequncia fundamental [Talkin (95)]. Definindo m como o primeiro elemento da janela de anlise de dimenso N, centrada na i-sima trama e k o intervalo temporal em nmero de amostras para a qual se est a calcular a NCCF, esta definida como:
m + N 1

i [k] =

j =m

s[j ]s[j + k]
em em+k

kN

(3.54)

sendo ej dado por,


ej =
j + N 1 l= j

s[l]2 .

(3.55)

A dimenso da janela de anlise no mnimo igual ao mximo perodo possvel da frequncia fundamental e no ao dobro desse valor, como no caso da utilizao da funo de autocorrelao. Os valores da NCCF esto limitados entre -1 e 1, correspondendo os valores perto da unidade a mltiplos do perodo fundamental, independentemente das variaes de amplitude entre perodos, e o primeiro mximo local, desde que suficientemente representativo, ao perodo fundamental. Para testar valores do mximo da NCCF que no estejam prximos da unidade, mas que mesmo assim sejam razoavelmente significativos, o procedimento de deciso de vozeamento pode socorrer-se, como para o mtodo da autocorrelao, de outras caractersticas do sinal de fala para ajudar deciso.

60

3-Anlise de Fala

3.5.3 Mtodos no domnio da frequncia


Devido periodicidade nas zonas vozeadas, o espectro essencialmente um conjunto de rplicas do espectro da janela de anlise espaadas da frequncia fundamental. A energia das baixas frequncias nas zonas vozeadas tambm elevada, enquanto nas zonas no vozeadas a energia se espalha de um modo mais uniforme pelo espectro. Estas caractersticas podem ser utilizadas para a deciso de vozeamento e estimao do perodo fundamental, usando por exemplo o algoritmo
harmonic sieve proposto por Sluyter em 1982 [Sluyter (82)].

Neste mtodo, a deciso de vozeamento depende da intensidade espectral dada pelo mximo do mdulo da Transformada de Fourier Localizada (TFL) no intervalo 200 a 800 Hz. O algoritmo de deciso relativamente complexo e tem em conta no s este valor mas tambm o valor da intensidade espectral e a deciso nas 5 ltimas tramas. Aps a deciso da trama como vozeada, a estimao do perodo fundamental feita por tentativas, verificando qual dos candidatos tem o melhor alinhamento das suas harmnicas.

3.5.4 Pitch Fraccionrio


Como a vibrao das cordas vocais no coincide em princpio com um mltiplo da frequncia de amostragem, o perodo fundamental no um nmero inteiro mas sim um nmero fraccionrio (pitch
fraccionrio) [Marques (89)]. Os valores intermdios entre amostras

so obtidos por interpolao do tipo

sen(x)/x,

modelando

reconstruo do sinal por um filtro ideal passa-baixo com frequncia de corte de metade da frequncia de amostragem (figura 3.11). Este mtodo, embora aumente em muito os requisitos de clculo e sejam necessrios mais bits na codificao, faz diminuir o erro de predio.

Identificao do gnero do orador

61

Um procedimento alternativo modelar este efeito com um preditor de dois ou trs elementos de atraso, escolhidos volta do perodo real.

Figura 3.11 Reconstruo utilizando interpolao seno(x)/x, correspondente resposta impulsiva de um filtro passa-baixo ideal com frequncia de corte de fs/2.

3.6 Identificao do gnero do orador


O gnero do orador , talvez, a primeira caracterstica da fala que um ouvinte humano capaz de identificar. A dimenso do tracto vocal e a espessura e comprimento das cordas vocais so as causas principais desta distino to clara, que divide o espao dos sinais de fala. A dimenso do tracto vocal influencia a localizao dos formantes e a espessura e comprimento das cordas vocais influenciam a frequncia fundamental, pelo que os oradores do gnero feminino tm, tipicamente, formantes e frequncias fundamentais mais elevados que os oradores do gnero masculino. Uma pr-identificao automtica do gnero pode, assim, assistir com sucesso a algumas aplicaes do processamento de fala, tais como o reconhecimento de fala independente do orador e a identificao ou a verificao do orador.

62

3-Anlise de Fala

Apenas baseado no valor da frequncia fundamental possvel implementar m mtodo de baixa complexidade para identificao do gnero do orador [Meneses (99-a)], situando-se o ponto de distino volta dos 150 a 170 Hz. Como exemplo apresenta-se na figura 3.12 um grfico das frequncias de ocorrncias dos valores mdios da frequncia fundamental em segmentos fonticos, para 8 oradores (4 de cada gnero), correspondendo a 32 minutos, separadamente para oradores do gnero feminino e masculino, verificando-se uma razovel separao (157 Hz) entre as duas classes. A taxa de sucesso para 48 oradores (24 de cada gnero) corresponde a 90%.

oradores femininos

oradores masculinos

Figura 3.12 Frequncias de ocorrncia do valor mdio da frequncia fundamental, calculadas por segmentos fonticos.

A identificao utilizando o valor obtido com base numa trama , no entanto, pouco robusta, j que as variaes prosdicas aumentam ou diminuem localmente o valor da frequncia fundamental. De modo a

Deteco de actividade de voz

63

tornar mais robusta a deciso, deve-se manter uma estimativa do seu valor mdio, por exemplo atravs de uma filtragem passa-baixo do tipo:
FO (k ) = (1 ) FO (k 1) + FO(k ) 0 < < 1 ,

(3.56)

em que corresponde ao coeficiente de filtragem.

3.7 Deteco de actividade de voz


Em algumas aplicaes necessrio detectar a presena de actividade de voz (VAD Voice activity detection). Esta deteco razoavelmente simples caso se esteja num ambiente silencioso, mas em zonas de mais baixa relao sinal-rudo ou com msica de fundo esta tarefa dificultada. As aplicaes da VAD so: (1) reconhecimento de palavras isoladas ou fala contnua; (2) transmisso por pacotes de sinais de fala em que as zonas de ausncia de actividade de voz podem ser codificadas com um dbito binrio menor, no sobrecarregando a rede de transmisso (uma conversa telefnica tpica constituda por apenas cerca de 50% de actividade de fala em cada sentido); (3) algoritmos de cancelamento de rudo e cancelamento acstico de eco em que necessria uma boa estimativa do rudo, obtida nas zonas de ausncia de fala.

3.7.1 Deteco de palavras isoladas


A deteco de palavras isoladas toma tambm a designao de deteco de extremos, ou seja do incio e fim da palavra. A aplicao bvia o reconhecimento de palavras isoladas. Um mtodo clssico com vista ao reconhecimento, proposto por Lamel [Lamel (81)] assume que cada palavra compreende uma sequncia de um ou mais pulsos de energia. O problema a solucionar passa por encontrar estes pulsos e determinar quais pertencem a cada palavra.

64

3-Anlise de Fala

deteco

dos

pulsos

de

energia

um

procedimento

esquerda-direita, ou seja, uma funo montona do tempo. O sinal dividido em tramas (Lamel prope tramas de 15 ms), sendo estimadas as respectivas energias Rl[0], sendo l o ndice de cada trama. Como mostrado na figura 3.13, quando Rl[0] ultrapassa o limiar k1, a trama respectiva (A1) considerada o incio de um pulso de energia se mais tarde a energia exceder o limiar k2 (na trama A2), a menos que a durao entre A2 e A1 seja demasiado longa e neste caso o incio do pulso considerado em A2. O fim de pulso detectado de maneira similar, utilizando os limiares de deciso k2 e k3, sendo detectado como fim do pulso a trama A4, a menos que a durao entre A4 e A3 seja demasiado longa (tipicamente indica respirao no fim da palavra) em que neste caso considerada a trama A3. So ainda efectuados mais dois testes: (1) A energia mxima calculada e se o seu valor for inferior ao limiar k4 o pulso rejeitado; (2) a durao total calculada e se for inferior a 75 ms o pulso rejeitado (bater de porta, pancada numa mesa etc.).

Figura 3.13 Deteco de pulsos de energia [Lamel (81)]

A estimao da energia Rl(0) deve ter em conta o rudo de fundo. A energia do rudo estimada nas zonas de ausncia de voz, pressupondo que a sua energia se mantm durante a sua presena. O valor da energia do rudo pode assim ser descontado na estimao

Deteco de actividade de voz

65

global da energia da trama, uma vez que o rudo e o sinal no so correlacionados.

Figura 3.14 Deteco de palavras com base em pulsos de energia [Lamel (81)]

Dado que uma palavra constituda por um conjunto de um ou mais pulsos, estes so considerados como possivelmente pertencentes mesma palavra caso a distncia que os separa seja inferior a, por exemplo como proposto por Lamel, 75 ms. Caso contrrio considera-se como pertencentes a palavras diferentes. A palavra contudo no dever ter uma dimenso menor que 150 ms e, funo da aplicao, uma dimenso mxima. No exemplo da figura 3.14, assumindo que as distncias entre pulsos X1 e X2 sejam inferiores a 75 ms, considerada a hiptese mais provvel de extremos de palavra as tramas A1 e A6. Esta hiptese testada por um reconhecedor de palavras isoladas e assumida como vlida se a distncia para a palavra reconhecida for suficientemente pequena. Caso contrrio, de um modo recursivo, so testadas as hipteses (A1, A4) (caso X2 seja maior que X1), (A3, A6) e (A3, A4). A escolha final assim escolhida de um modo integrado entre o reconhecedor e hipteses cada vez menos provveis de extremos de palavras. Caso X2 seja inferior a X1 a sequncia testada (A1, A6), (A3, A6), (A1, A4) e (A3, A4).

66

3-Anlise de Fala

3.7.2 Deteco de fala contnua


A deteco de fala contnua utiliza tipicamente no s a energia mas tambm parmetros tpicos dos sinais de fala, tais como o a periodicidade das zonas vozeadas, a grande energia de baixas frequncias e a no estacionaridade, esta ltima caracterstica de alguns tipos de rudo. A recomendao de codificao do ITU-T G.729 Anexo B (96), por exemplo, utiliza as diferenas com estimativas dos respectivos valores mdios da: energia e energia da banda de baixa frequncia; nmero de passagens por zero; coeficientes espectrais (LSF). Outro exemplo, a norma de codificao GSM AMR [Vahatalo (99)] estima o somatrio da relao sinal-rudo por (10) bandas;

You might also like