You are on page 1of 4

Ses aretlerinin Yapay Sinir Alar ile Tannmas ve Kontrol lemleri iin Kullanlmas

pek Bar, Meltem Erdamar, Emre Smer, Hamit Erdem Bakent niversitesi Elektronik Mhendislii Blm Ankara ipek_baris@hotmail.com,98130024@mail.baskent.edu.tr,{esumer,herdem}@baskent.edu.tr

zet: Bu almada Yapay Sinir Alar (YSA) kullanlarak konumac kimliinin belirlenmesi amalanmtr. Kiilerin farkl ses karakteristiklerine sahip olmas ve bu zelliklerin matematiksel ilemlerle ortaya karlmas sayesinde ses tanma sistemleri gnlk hayatta ska kullanlmaya balanmtr.Burada, ses karakteristiklerinin ortaya karlmas ve YSA ile konumacnn belirlenmesi zerinde durulmutur. 7 kiiden alnan ses rnekleri bir dizi matematiksel ilemlerden geirilerek her rnee ait 260 tane cepstral katsay hesaplanm ve bunlardan bir veri taban oluturulmutur. Daha sonra Matlab programnda yazlan YSA, oluturulan veri tabanna gre eitilip test edilmitir. YSAnn knda konumaclarn kimlikleri %90lk doruluk payyla bulunmaktadr. 1.Giri
Ticari ve finansal ilemlerin elektronik sistemlerle yaplabilir hale gelmesi, kiilere ait zel bilgilerin istenmeyen ahslar tarafndan elde edilmesi tehdidini dourmutur. Bu sorunu amak iin gvenlik sistemleri gelien teknolojiyle srekli olarak yenilenmektedir. ahslara ait ses, resim,parmak izi, iris, el yazs gibi karakteristikler zellikler yardmyla yeni gvenlik sistemleri kullanlmaktadr. Ses tanma sistemleri de bunun bir parasdr.

2.Ses leme
Btn konuma sesleri, farkl frekans deerlerine sahip sins dalgalarnn dorusal birleiminden oluur. nsan sesinin frekans deerleri 300Hz-3300Hz arasnda deimektedir. Nyquist Teoremine gre ses frekansnn iki kat ve daha byk rnekleme frekans ile etkin bir rnekleme yaplr [1]. Bu nedenle, ses rnekleri 8kHzlik rnekleme frekans ile kaydedilir. Bu rneklerin YSAya giri olarak verilebilmesi iin ses sinyalleri zerinde baz deiiklikler yaplmal, sinyaller grltden arndrlmal ve konumaclarn ses karakteristiklerini oluturan katsaylar belirlenmelidir. Bu ilemler iin bilgi sktrma ve ses zelliklerinin ortaya karlmas gibi tekniklerden faydalanlr. Bylece sistemin alma hz ve performans artar. Ses zelliklerinin ortaya karlmas iin ekil1deki blok diyagramda gsterilen ilemler srasyla yaplr. ekilde ilknce ses kayd yaplr, kaydedilen ses A/D ile saysal veriye evrilir.Bu sinyal zerinde nvurgu ilemi, ereveleme ve LPC katsaylaryla cepstral katsaylar bulunur.

ekil 1. Ses zelliklerinin Ortaya karlmas

2.1.nvurgu lemi
Bu blmde ses sinyalinin frekans uzayndaki deerleri dk dereceli FIR(finite impulse response) bir filtreden geirilir. Bylece sinyal grltden arndrlm olur ve sadece sinyal karakteristiini belirleyen ksmlar elde edilir. Sinyalin gereksiz ksmlar ve grlt atlr. Birinci dereceden LPF(alak geirgen filtre)n transfer fonksiyonu: H(z)=1 / (1-a*z) a=-0.9375 (1)

2.2.ereveleme ve Pencereleme lemi


LPFden geen ses sinyallerinin her biri erevelere blnr. Bu erevelerin tmnn periyodu ayndr. ereveler belirli blgelerde kesiirler. Daha sonra hepsi Hamming Windowing denilen bir pencereleme algoritmasndan geer. Bylece erevelere blnm ve pencerelenmi sinyalin karakteristiklerini tayan katsaylar hesaplamak kolaylar ve srekli bir sinyal elde edilir[6].
0.54 - 0.46 * cos(2 * * n /( N 1)) Wn = 0

0n< N
yada

(2)

2.3.Dorusal Tahmini Kodlama (LPC) lemi


Saysal iaret ileme alannda sesi tanmak iin bir ka algoritma kullanlabilir. Bunlarn iinde en nemlisi LPC dir. LPCnin kullanm kolayl ve hafzada az yer kapsamas en beligin zellikleridir.[2]Bu teknikteki temel ilke ses rneklerinin gemiteki rneklere baklarak tahmin edilmesidir[6]. Ses rneinin, eski rneklerinin dorusal birleimi eklinde olduu dnlp ses sinyalinin karakteristik katsaylar yaklak olarak hesaplanr.[3] Elde edilen yaklak sonu ile gerek deer arasndaki fark yani hata minimuma indirilir.
s'=

a
i =1

* s ni

(3)

E =

N 1 n=0

2 en =

N 1

(s

n=0

2 p a *s ) k n k k =1

(4)

2.4. Cepstral Analiz


Cepstal analizde bulunan katsaylar LPC katsaylarndan tretilir. Bu katsaylar, LPC katsaylarna oranla karakteristik parametrelerin hesaplanmasnda daha gvenilir yaklamlar sunar. Bylece YSA iin verilmesi gereken bilgilerin nemli karakteristik parametreleri elde edilir.[6] Bunlar da YSAya giri olarak verilir.

ck = ak + 1 / k *

i*c *a
i i =1

k 1

k i

k = 1,2,..., i 1

1< i < p

(5)

3.Yapay Sinir Alar ve Ses Tanma


Yapay sinir alar (YSA), insan beyninin alma prensiplerinin taklit edilmesiyle oluturulan sistemlerdir. YSAlar, model seimi ve snflandrlmas, fonksiyon tahmini, en uygun deeri bulma ve veri snflandrlmas gibi ilerde baarldr. Geleneksel bilgisayarlarsa zellikle model seme iinde verimsizdir ve sadece algoritmal hesaplama ilerinde ve kesin aritmetik ilemlerde hzldrlar.[5] Yapay sinir alarnda girdiler ve ktlar arasnda gizli katmanlar vardr. Her katmann girdisi, bir aktivasyon fonksiyonuna girerek kty oluturur. Seviyeler arasnda arlkl toplamlar ile ktlar bulunur. YSAnn giri-gizlik katmanlar ekil 2. te grlmektedir. Her nronun bir arlk ve yanllk deerleri vardr. Yapay sinir alarndaki bu arlklar bulmak iin deiik algoritmalar kullanlr. leri besleme geri yaylm algoritmas en yaygn olarak kullanlandr. Bu algoritma ile sisteme snflar retilir. Bylece sistem eitilir. YSAda ses tanmlama ilemleri dier algoritmalara gre daha hzldr. Bu yzden bu almada YSA kullanlmtr[7].

ekil 2. Yapay Sinir A Modeli

4.Gelitirme
Bu projede, teknolojik gelimeler paralelinde minimum hata hedefiyle ses sinyallerinin tannp konumacnn belirlenmesi zerine almalar yaplmtr. lk aamada, 6 kiiden a harfine ait 90 ses tane ses rnei alnm ve herbir rnekte 260 tane cepstral katsay bulunan vektrlerle bir veri taban oluturulmutur. Matlabda oluturulan YSA programna giri olarak veri tabanndaki vektrler verilmitir. Hedef k deerlerine gre sistem eitilmitir.Eitimde gradyan metodu kullanlmtr. Eitim ilemlerinin tamamlanmasnn ardndan sistem test edilmitir ve %10luk hata pay ile konumac doru olarak tannmaktadr.

4.1. Yapay Sinir Alarnda Cepstral Katsaylarn lemesi


ekil 3. e gre giri katmannda 260, gizli katmanda 10 ve k katmannda ise 3 nron kullanlmtr. Gizli katmandaki nron saysnn ok olmas sistemin etkin almasn salar ancak hz azaltr. Gizli katmandaki optimum nron says deneme yanlma yoluyla bulunur.

ekil 3. Tasarlanan Yapay Sinir A Modeli k ise tamamen tasarma baldr . Sistemde konumacnn sei ve syledii harf nemlidir. Eer bu kiiler farkl harf sylerlerse, sistem bu sesi tanmaz dolaysyla, yabanc birinin sesi olarak alglar. ktaki 3 nron aadaki gibi kodlanmtr. X ve Y farkl kileri gstermektedir. Nron: O ! O ! O ! k: 1 0 0 X 0 1 0 Y 0 0 1 Yabanc

Ses rneklerinden oluturulan vektrler bir hcre dizisi (cell array) altnda tutulur.Bu, tasarlanan yapay sinir ann giri deeridir. Hedeflenen 3*1'lik vektrler de ayr bir hcre dizisinde bulunur. Tasarmda gizli katmann transfer fonksiyonu "tansig", knki ise "purelin"dir. Sistem "traingd" ile eitilmektedir. Traingd'nin kullanm amac, eitim ileminde tm verilerin ayn anda kullanlmasdr.Bu sayede sistemin daha hzl ve az hata ile almas salanr. nk, arlk deerleri performans fonksiyonunun gradyannn tersi ynde yenilenir. Bunun yannda programda "lr=0.05" renme oran, "epoch=100000" tekrarlama says, "goal=1*e-005" istenilen tolerans deeri gibi deikenlere uygun deer atanr ve sistem tm bu verilerle gre eitilir. ekil-4te YSAnn performans-ama erisi grlmektedir. Sistemin performans deeri, nceden belirlenen ama deerine tolerans miktar kadar yaklat zaman eitim ilemi sona erer. perf =mse(e) ile elde edilen performans deeri : perf = 9.9998e-006

ekil 4. Tasarlanan Yapay Sinir A Modeline Gre Performans veAma Erisi

4.2. Test Aamas


Test amacyla farkl rnekler sisteme giri olarak verilir. k deerleri gzlemlenir.Sonu ile beklenen deerler karlatrlr ve sistemin alma performans hatalara baklarak hesaplanr.Hata ortalamal kareler toplam metoduyla bulunur.

5.Sonu
Ses rneklerinin alnmas, cepstral katsaylar ile veri tabannn oluturulmas, yapay sinir ann eitilip test edilmesi sonucunda denenen 10 ses kaydnn 9 tanesi doru olarak bulunmutur. Bu orann arttrlmas iin hem gizli katmandaki nron says hem de veri tabanndaki ses rneklerinin says arttrlp sistemin yeniden eitilmesi gerekir. Ayrca sistemin ktlar paralel porta gnderilerek eitli cihazlarn kontrol de yaplabilir. Bundan sonraki aamada belirli harfler yerine konumacnn tm harflerini tanyabilen bir sistem tasarlanabilir.

Kaynaklar
[1] Haykin S, Communication Systems. John Wiley, 2000. s: 188-187. [2]Botros, N., Deiri, M.Z., Hsu, P., Automatic voice recognition using artificial neural network approach Circuits and Systems, 1989.,Proceedings of the 32nd Midwest Symposium on, 1990 s: 763 -765 vol.2 [3] Cansz M., YSA ile Kiilerin Ses rneklerinden Kimliklerinin Tannmas Yksek Lisans Tezi, 1997, s:22. [4] Kuah, K., Bodruzzaman, M., Zein-Sabatto, S, A neural network-based text independent voice recognition system Proceedings of the 1994 IEEE ,1994 . s: 131 -135 [5] Ng, G.S., Erdogan, S.S., Pan, W.N, Neural networks for voice recognition Networks. International Conference on Information Engineering '93. 'Communications and Networks for the Year 2000', Proceedings of IEEE Singapore International Conference on , Volume: 1 , 1993 s: 383 -387 vol.1 [6] Robinson T., Speech Analysis, http://svr-www.eng.cam.ac.uk/~ajr/SA95, 1998. [7] Callan R.,The Essence of Neural Networks,1998. s: 20-56

You might also like