Professional Documents
Culture Documents
Ricardo Becker
rbecker@gparc.org
Moiss Coster
mcoster@gparc.org
Ricardo Balbinot
rbalbinot@gparc.org
Guilherme Corsetti
gcorsetti@gparc.org
Fladhimyr C. Castello
fcastello@gparc.org
1. Introduo
A necessidade de economia de banda em redes de
transmisso de voz se faz cada vez mais necessria
considerando o grande aumento na troca de informaes
entre as pessoas e os custos associados implantao dos
sistemas de transmisso. Quando nos referimos
especificamente a sistemas de voz sobre IP (VoIP Voice
over IP), a necessidade a mesma. Foi constatado que
durante uma conversao mdia entre duas pessoas, cada
pessoa fala apenas de 35% a 50% do tempo total [1,2,3].
Isto leva a pensar no desperdcio de banda ocasionado na
rede IP pela transmisso de perodos de silncio. Neste
momento, encontramos uma oportunidade para o
desenvolvimento e aplicao das tcnicas de deteco e
supresso de silncio em chamadas telefnicas.
A economia de banda em sistemas de VoIP,
especialmente quando consideradas as aplicaes em
tempo real e em redes de capacidade de transmisso
limitada, faz-se necessria principalmente devido a
O desenvolvimento deste trabalho s foi possvel com o apoio do CNPq, que proveu recursos fsicos e financeiros sob o processo de nmero
552093/2002-5 da chamada conjunta MCT/SEPIN FINEP CNPq 01/2002.
t pa cot e
1
f amostragem
Em =
1
N
N 1
(E
amostra
)2
_
_
_
x1 x + x2 x + ..... + xn x
2
=
VAR =
(n 1)
i =1
(n 1)
n
C (0) =
N 1
f ( x)
N
x =0
C (u ) =
(2 x + 1)u
2 N 1
f ( x) cos
N x =0
2N
9. Tcnicas auxiliares
As tcnicas auxiliares visam dar suporte aos algoritmos
de VAD de forma a garantir que no haja degradao
significativa da voz que entregue ao usurio.
9.1 Hangover
Hangover uma tcnica para evitar o sbito clipping
da voz, quando da utilizao de tcnicas de deteco e
supresso de silncio, funcionando como uma histerese
[13], ou uma pequena ligao entre trechos da fala,
especialmente consoantes que seriam suprimidas. Dentro
do tempo de hangover, mesmo que haja um pacote de
voz considerado silncio, este ser considerado parte do
ltimo trecho de fala, e se dentro deste mesmo tempo de
hangover um pacote ativo de voz detectado, o tempo
de hangover renovado [15].
O que se verifica em [15] que o tempo de hangover
pode ser determinado por um limitado nmero de pacotes
que no total iro perfazer um determinado tempo. Por
exemplo, para o caso de um tempo de hangover com
cinco pacotes de voz, sendo os pacotes de 20
milessegundo, teremos um tempo de 100 milessegundos
de tempo de hangover.
NEW
1,25
OLD
0,25
1,25
NEW
1,10
OLD
0,20
1,10
NEW
1,00
OLD
0,15
NEW
OLD
0,10
1,00
NEW
OLD
14. Bibliografia
[1] Monteiro, R. F.; Errico, L.; Yehia, H. C.: Implementao de
Transporte Robusto de Voz em Redes Baseadas em Protocolos
IP. XVIII SBRC. Belo Horizonte, 2002.
[2] Kondoz, A.M.; Evans, B.G.: A High Quality Voice Coder
With Integrates Echo Canceller and Voice Activity Detector for
VSAT Systems. Center for Satellite Engeneering Research.
University of Surrey. 200.
[3] Rabiner, L., R.; Schafer, R. W.: Digital Processing of Speech
Sinals. Prentice-Hall, Inc., Englewood Cliffs, New Jersey, 1978.
[4] Tanyer, S.G.; Ozer,H. Voice Activity Detection in
Nonstacionary Gaussian Noise, Ankara, Turkey. ICSP98
[5] Renevey, P; Drygajlo, A: Entropy Based Voice Activity
Detection in Very Noisy Conditions. European Conference on
Speech Communication and Technology, Aalborg, Denmark,
September 2001, vol. 3, pp. 18831886
[6] Rodrigues, S. L.: Implementao e Avaliao do
Desempenho de um Sistema Automtico de Reconhecimento de
Locutor pela Anlise de Frases Curtas. Tese (Mestrado em
[8] Ramirez, J.; Segura, J. C.; Benitez, C.; Torre, .; Rubio, A.:
Efficient Voice Activity Detection Algoritms Using Long-term
Speech Information, Dept. of Eletronics and Computer
Tecnology, University of Granada, 2002.
[9] Prasad, R.V.; Sangwan, A. Chiranth, M. C. Sah.:
Comparation of Voice Activity Detection Algoritms for VoIP.
IEEE, Bangalore India, 2002.
[10] Sangwan, A.; Chiranth, M. C.; Jamadagni, H. S.; Sah, R.;
Prasad, R. V.: VAD Techniques for Real-Time Speech
Transmission on the Internet. High Speed Networks and
Multimedia Communications 5th IEEE International Conference
on, Jeju Island, S. KOREA, 2002.
[11] Balbinot, R; Silveira, J. G.; Castello, F. C.; Santos, P. M.;
Quadra, A. S.: Voz sobre IP Tecnologia e tendncias. SBT
2004. Belm, Brasil, 2004.
[12] Benyassine, A.; Shlomot, E.; Su, H.; Yuen, E.: A Robust
Low Complexity Voice Activity Detection Algorithm for
Speech Communication System. IEEE Workshop on Speech
Coding, Pocono Manor, Pennsylvania, USA, 1997.
[13] Sangwan, A.; Jamadagni, H. S.; Chiranth, M. C.; Sah, R.;
Prasad, R. V.; Gaurav, V.: Second and Third Order Adaptable
Threshold for VAD in VoIP. ICSP-02, Beijing, CHINA. 2002.
[14] Zhang, J.; Ward, W.; Pellom, B.: Phone Based Voice
Activity Detection Using Online Bayesian Adaptation with
Conjugate Normal Distributions. ICASSP'2002, Orlando
Florida, 2002.
[15] Jiang, W; Schulzrine, H.: Analysis of on-off Patters in VoIP
and Their Effect on Voice Traffic Aggregation, IEEE,
Department of Computer Science. Columbia University, 2000.
[16] RFC 3389 Payload of Comfort Noise. Setembro de 2002.