Professional Documents
Culture Documents
Resumo: O presente artigo discorre sobre alguns aspectos tcnicos do mtodo de sntese digital de voz cantada baseada em concatenao, tomando como referncia para estudo de caso o canto em lngua portuguesa. Com este intuito, sero abordados certos aspectos da fontica do idioma portugus e suas relaes com a acstica do canto, para que se possa ento descrever o mtodo propriamente dito, que consiste basicamente em concatenar fonemas pr-gravados em formato digital, aplicando-se loops nas vogais de sustentao de acordo com duas entradas de dados principais: mensagens do protocolo MIDI e a letra da cano em notao fontica adequada. Palavras chave : sntese de canto, MIDI, TTS
1. Introduo
Em trabalho anterior, a importncia do protocolo MIDI para a produo musical foi destacada. Dentre as inmeras aplicaes deste padro tecnolgico, foram mencionados sistemas seqenciadores capazes de manipular amostras de voz humana e, inclusive, articular canto com o auxlio do protocolo (BRUM, 2009). O presente trabalho tem por objetivo detalhar o funcionamento de tais sistemas por meio da apresentao de uma das tcnicas de sntese de canto utilizadas pelos mesmos. Trata-se da sntese baseada em concatenao. Entretanto, para que haja uma melhor compreenso do domnio do problema, convm estabelecer primeiramente um paralelo entre a manifestao sonora da voz falada e as caractersticas acsticas dos sons musicais. Assim, as duas prximas sesses determinaro as premissas que nortearo a apresentao da tcnica que objeto deste artigo.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011
Entretanto, certos sons voclicos tambm podem aparecer margem de uma slaba, como acontece nos ditongos e tritongos. Tais sons so denominados vogais assilbicas ou semivogais. Dadas estas noes bsicas de fontica, convm apresentar um importante conceito da acstica musical, o de envoltria, para que, relacionando-os, seja possvel inferir certos aspectos da acstica do canto que serviro como premissas para a descrio da tcnica de sntese vocal proposta.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011
Figura 1. Curva envoltria idealizada e suas quatro fases. (HENRIQUE, 2002, p. 171)
H autores, porm, que tendem a considerar a fase de decaimento como menos importante na anlise da curva envoltria (HENRIQUE, 2002, p. 171; CAMILO et al., 1984, p. 390), dando maior destaque s trs outras fases. Lus L. Henrique, por exemplo, fala em trs perodos a serem considerados na durao de um som: dois de regime transitrio, ataque e extino (relaxamento) e um de regime estacionrio, que ele 3
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 denomina perodo de estabilidade, correspondente fase de sustentao. Um dado importante que, enquanto os perodos transitrios, como o de ataque, constituem-se por um rudo, durante o perodo de estabilidade (fase de sustentao) que se fixam certas caractersticas do som tais como altura e intensidade (HENRIQUE, 2002, p. 171). The New Grove dictionary of music and musicians, em seu verbete sobre o som, trata da importncia da curva envoltria para a fala humana, sendo tais consideraes igualmente importantes para o canto:
As formas de envoltria desempenham um papel essencial na fala humana. As consoantes so geralmente alteraes razoavelmente drsticas na forma envoltria. Uma oclusiva, como o p, provoca um incio de rudo aleatrio (ar escapando quando os lbios so abertos) razoavelmente rpido, conduzindo a uma vogal, uma nota estvel. Se se permite que o rudo cresa em amplitude mais vagarosamente, o resultado um f.2 (TAYLOR; CAMPBELL, 2001, p. 769)
A partir daqui, possvel estabelecer relaes entre as trs principais fases da curva envoltria e a manifestao acstica da slaba, a fim de que alguns princpios da tcnica de sntese de canto baseada em concatenao sejam deduzidos. Os aclives e declives sonoros presentes como margens na slaba correspondem, respectivamente, s fases de ataque e relaxamento da curva envoltria. Logo, nessas fases que se situam as consoantes e semivogais quando uma slaba cantada. Enquanto isso, a vogal, que serve de ncleo para a slaba, ocorre na fase de sustentao. Nesse sentido, tambm coincidem a natureza ruidosa das consoantes, prpria dos regimes transitrios das fases de ataque e relaxamento, em contraposio ao carter peridico ou de nota estvel das vogais, caracterstica do regime estacionrio da fase de sustentao. Daqui se segue uma concluso importantssima: na vogal que se determina a altura do som cantado, nela que se concentra a nota musical, podendo haver melismas, ou seja, variaes de altura durante o prolongamento de uma mesma vogal.
2 Envelope shapes play an essential part in human speech. The consonants are usually fairly drastic changes in envelope shape. A plosive, like 'p', makes a fairly rapid initiation of random noise (air escaping when the lips are opened) leading on to a vowel, a steady note. If the noise is allowed to rise in amplitude more slowly, the result is an 'f'.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 Dadas essas premissas, pode-se partir para a descrio da tcnica de sntese de canto baseada em concatenao propriamente dita. A prxima seo tratar desse assunto.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 Uma outra tcnica relacionada sntese de canto baseada em concatenao a sntese de fala, tambm conhecida por sua sigla em ingls, TTS (text-to-speech), cujo objetivo Criar a partir de uma mensagem de texto gravada em computador a correspondente voz na leitura dessa informao permitindo a sua transmisso (HENRIQUE, 2002, p. 701). Uma sucinta descrio de tal tcnica dada por O'Sullivan e Igoe, que tambm apontam algumas de suas dificuldades:
Para sintetizar a fala, voc deve quebrar a linguagem em partes previamente gravadas. Se voc a quebrar em partes maiores, como palavras e frases, soar melhor, mas a gama de possveis expresses ser menor. Se voc quebrar a fala, em todo caso, at os fonemas de uma linguagem, voc pode teoricamente sintetizar qualquer texto, mas o resultado sempre soar artificial.3 (O'SULLIVAN; IGOE, 2004, p. 360).
Esta artificialidade qual se referem os autores deve-se sobretudo prosdia do idioma, que determina principalmente as variaes de freqncia, durao e intensidade dos sons pronunciados. No caso da voz falada, o controle de tais parmetros torna-se complexo caso se queira obter uma sntese com o mximo possvel de naturalidade. J em relao voz cantada, tais dificuldades so bastante diminudas, pois a linha meldica, o ritmo associado ao andamento e o acento mtrico da msica determinaro de forma prvia e mais precisa os valores daquelas trs variveis, respectivamente.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 musicais para fins de controle de amostras digitais pr-gravadas , sem dvida, o protocolo MIDI, que permite a integrao com outros seqenciadores e instrumentos musicais. J para representar os fonemas em formato texto, pode-se propor a notao SAMPA (Speech Assessment Methods Phonetic Alphabet) como um padro conveniente, uma vez que utiliza o conjunto de caracteres ASCII de 7 bits, acessvel a qualquer teclado comum de computador, para mapear os fonemas, ao contrrio do Alfabeto Fontico Internacional, que faz uso de caracteres especiais que nem sempre esto mo dos usurios. A notao SAMPA foi desenvolvida originalmente no final da dcada de 1980 pela Comunidade Econmica Europia e utilizada por sistemas sintetizadores de canto profissionais, como o Virtual Singer, da Myriad. O Apndice I contm uma tabela com os smbolos SAMPA para os fonemas do idioma portugus falado no Brasil. A base de dados mencionada poderia conter fonemas consonantais e semivoclicos gravados uma nica vez, enquanto as vogais seriam gravadas cantando-se diversas notas diferentes, extraindo-se delas a clula sonora a ser utilizada no loop e gerando-se para cada nota, em tempo de execuo, as notas mais prximas, conforme a necessidade. Um sistema sintetizador de canto deve tambm prover uma estrutura de dados e uma interface que permitam associar tanto internamente quanto externamente (para o usurio) cada nota musical a uma determinada slaba. A estrutura de dados deve ser compatvel com as mensagens do protocolo MIDI, de modo que a estrutura e as mensagens sejam mutuamente conversveis. Este tipo de converso j foi descrita em trabalho anterior (BRUM, 2008, p. 47-55), sendo uma alternativa muito interessante apresentada por Paul Hudak, que se valeu para tanto da biblioteca Haskore, desenvolvida na linguagem de programao funcional Haskell (HUDAK, 2007, p. 287320). Assim, tanto as mensagens oriundas de um arquivo MIDI importado ou de um instrumento musical poderiam ser interpretadas, refletindo-se estrutura de dados e na interface, quanto o usurio poderia usar a prpria interface para definir a msica e o sistema preencheria a estrutura de dados, podendo inclusive gravar um arquivo no formato .kar (MIDI Karaoke), que j contm a associao entre a msica e sua letra.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 As slabas devem ser digitadas pelo usurio em notao SAMPA na interface, associando-se s notas musicais, como mostra a Figura 2, que apresenta como exemplo a interface do programa Harmony Assistant, que tem por mdulo de sntese de canto o j mencionado Virtual Singer. Outros sintetizadores de canto, como o Vocaloid, da Yamaha, tm sua interface baseada em piano roll4, ao invs da notao musical convencional.
Figura 2. Slabas em notao SAMPA associadas a notas musicais na interface do Harmony Assistant.
importante que as slabas digitadas contenham uma, e somente uma, vogal, pelo menos em se tratando do portugus brasileiro, podendo tal vogal ser precedida e/ou sucedida de semivogais ou consoantes. Assim, quando da gerao do canto, o sistema far a concatenao dos fonemas consonantais e semivoclicos baseando-se somente no que foi digitado em notao SAMPA, de acordo com a ordem em que aparecerem. Quando do aparecimento de uma vogal, o sistema identificar no apenas o que foi digitado, mas levar em conta a nota associada slaba para escolher a amostra de som apropriada de acordo com sua altura, calculando a quantidade de loops a serem executados conforme a durao indicada. Deste modo, a mesma clula sonora voclica ser concatenada repetidamente tantas vezes quantas forem necessrias. Ao final, obter-
4 O piano roll, tal como foi descrito em trabalho anterior, consiste num teclado virtual agregado a uma tabela cujo preenchimento corresponde s notas musicais escolhidas (BRUM, 2008, p. 3). No mesmo trabalho podem ser encontrados maiores detalhes acerca desse tipo de interface.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 se- um udio digital resultante das concatenaes que ser uma voz cantada sintetizada, tendo notas musicais com transitrios de ataque e relaxamento formados pelas eventuais consoantes e semivogais e fases de sustentao geradas pelos loops aplicados s vogais. As fases de ataque e relaxamento de cada vogal tambm pode constituir a base de dados, sendo concatenadas quando no houver outros fonemas precedendo ou sucedendo a vogal numa determinada slaba. O udio resultante pode ser gravado num arquivo em formatos como MP3. Um exemplo de implementao semelhante proposta pelo presente artigo foi apresentada ainda em 1997 por Michael W. Macon, entre outros. Trata-se do sistema LYRICOS, que emprega um mtodo de TTS baseado em concatenao para sintetizar letras de canes arbitrrias em um dado idioma5 (MACON et. al., 1997, p. 1), valendo-se de um arquivo MIDI gerado por um seqenciador comercial para prover os parmetros musicais necessrios. O diagrama de blocos do sistema LYRICOS exibido pela Figura 3.
5 [The system, LYRICOS,] employs a concatenation-based text-to-speech method to synthesize arbitrary lyrics in a given language.
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011
5. Concluso
A sntese de voz cantada baseada em concatenao, como foi visto, combina as tcnicas de sntese musical por sons sampleados e TTS para gerar canto em formato digital. O presente artigo props, em linhas gerais, a implementao de um sintetizador desse tipo utilizando os padres MIDI para a sntese musical e SAMPA para a tcnica de TTS. Tal proposta pode ser concretizada em um trabalho futuro, desenvolvendo-se um sistema sintetizador bsico que pode ser, inclusive, um mdulo ou extenso do seqenciador MIDIBrum, apresentado em trabalho anterior (BRUM, 2008, p. 43-55). Importa frisar que a implementao em questo no visa gerar um produto inovador ou com grandes vantagens sobre os sintetizadores de canto j existentes, mas apenas aplicar de maneira prtica os conceitos aqui abordados para fins didticos.
6. Referncias bibliogrficas
BRUM, Leonardo A. Z. Sistema seqenciador musical baseado no protocolo MIDI. Trabalho de Concluso de Curso (Bacharelado em Cincia da Computao) Universidade Federal de Sergipe, So Cristvo, 2008. BRUM, Leonardo A. Z. O Auxlio do protocolo MIDI na produo musical. In: SIMPSIO SERGIPANO DE PESQUISA E ENSINO EM MSICA, 1., 2009, So Cristvo, Anais...So Cristvo: Universidade Federal de Sergipe, 2009. CALLOU, Dinah; LEITE, Yonne. Iniciao fontica e fonologia. 10. ed. Rio de Janeiro: Jorge Zahar, 2005. CAMILO, Daniel; YANO, Yuzo; YABU-UTI, Joo Baptista. Circuitos lgicos: teoria e laboratrio: engenharia eletrnica. So Paulo: Livraria Cincia e Tecnologia, 1984. HENRIQUE, Lus L. Acstica musical. Lisboa: Fundao Calouste Gulbenkian, 2002. HUDAK, Paul. The Haskell school of expression: learning functional programming through multimedia. New York: Cambridge University Press, 2007. MACON et. al. Concatenation-based MIDI-to-Singing Voice Synthesis. In: MEETING OF THE AUDIO ENGINEERING SOCIETY, 103., 1997, New York. O'SULLIVAN, Dan; IGOE, Tom. Physical computing: sensing and controlling the physical world with computers. Boston: Cengage Learning, 2004.
10
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011 TAYLOR, Charles; CAMPBELL, Murray. Sound. In: SADIE, Stanley (org.). The New Grove Dictionary for Music and Musicians. 2. ed. v. 27. New York: Oxford University Press, 2001. WEBER, Raul F. Arquitetura de computadores pessoais. 2. ed. Porto Alegre: Sagra Luzzato, 2003.
APNDICE I
Smbolos da notao SAMPA para os fonemas do portugus brasileiro6
Tipos de fonemas
a 6 6~ E e e~ Smbolo SAMPA lamo, arco. Cano, dama, ganho. Antologia, amparo, manh. Mdico, belo. Medo, pssego. Sempre, centro, tambm. tima, ova. Rolha, av. Ombro, ontem, cmputo, cnsul. Item, silvcola. Simples, smbolo, tinta, sncrono. Uva, ltimo. Algum, plmbeo, nunca, renncia. Mosca. Nervo. Galinha. Banda. Pato. Exemplos
Vogais
O o o~ i i~ u u~ m n
Consoantes
J b p
6 No h, na verdade, uma tabela SAMPA oficial para o portugus falado no Brasil e sim apenas para o portugus europeu. A tabela aqui apresentada uma adaptao para os fonemas pronunciados no Brasil.
11
III Simpsio Sergipano de Pesquisa e Ensino em Msica SISPEM Ncleo de Msica Universidade Federal de Sergipe 13 a 16 de setembro de 2011
d t g k v f z s Z S R r L l
Data. Telha. Gato, guerra. Carro, quanto., queijo. Vento. Farelo. Zero, casa, exalar. Seta, cebola, espesso, excesso, auxlio, asceta. Gelo, jarro. Xarope, chuva. Rato, carroa. Variao. Cavalheiro Luz. Uivo. Automtico, mvel, po, freqente
Semivogais
j w
12