Professional Documents
Culture Documents
pek Bar, Meltem Erdamar, Emre Smer, Hamit Erdem Bakent niversitesi Elektronik Mhendislii Blm Ankara ipek_baris@hotmail.com,98130024@mail.baskent.edu.tr,{esumer,herdem}@baskent.edu.tr
zet: Bu almada Yapay Sinir Alar (YSA) kullanlarak konumac kimliinin belirlenmesi amalanmtr. Kiilerin farkl ses karakteristiklerine sahip olmas ve bu zelliklerin matematiksel ilemlerle ortaya karlmas sayesinde ses tanma sistemleri gnlk hayatta ska kullanlmaya balanmtr.Burada, ses karakteristiklerinin ortaya karlmas ve YSA ile konumacnn belirlenmesi zerinde durulmutur. 7 kiiden alnan ses rnekleri bir dizi matematiksel ilemlerden geirilerek her rnee ait 260 tane cepstral katsay hesaplanm ve bunlardan bir veri taban oluturulmutur. Daha sonra Matlab programnda yazlan YSA, oluturulan veri tabanna gre eitilip test edilmitir. YSAnn knda konumaclarn kimlikleri %90lk doruluk payyla bulunmaktadr. 1.Giri
Ticari ve finansal ilemlerin elektronik sistemlerle yaplabilir hale gelmesi, kiilere ait zel bilgilerin istenmeyen ahslar tarafndan elde edilmesi tehdidini dourmutur. Bu sorunu amak iin gvenlik sistemleri gelien teknolojiyle srekli olarak yenilenmektedir. ahslara ait ses, resim,parmak izi, iris, el yazs gibi karakteristikler zellikler yardmyla yeni gvenlik sistemleri kullanlmaktadr. Ses tanma sistemleri de bunun bir parasdr.
2.Ses leme
Btn konuma sesleri, farkl frekans deerlerine sahip sins dalgalarnn dorusal birleiminden oluur. nsan sesinin frekans deerleri 300Hz-3300Hz arasnda deimektedir. Nyquist Teoremine gre ses frekansnn iki kat ve daha byk rnekleme frekans ile etkin bir rnekleme yaplr [1]. Bu nedenle, ses rnekleri 8kHzlik rnekleme frekans ile kaydedilir. Bu rneklerin YSAya giri olarak verilebilmesi iin ses sinyalleri zerinde baz deiiklikler yaplmal, sinyaller grltden arndrlmal ve konumaclarn ses karakteristiklerini oluturan katsaylar belirlenmelidir. Bu ilemler iin bilgi sktrma ve ses zelliklerinin ortaya karlmas gibi tekniklerden faydalanlr. Bylece sistemin alma hz ve performans artar. Ses zelliklerinin ortaya karlmas iin ekil1deki blok diyagramda gsterilen ilemler srasyla yaplr. ekilde ilknce ses kayd yaplr, kaydedilen ses A/D ile saysal veriye evrilir.Bu sinyal zerinde nvurgu ilemi, ereveleme ve LPC katsaylaryla cepstral katsaylar bulunur.
2.1.nvurgu lemi
Bu blmde ses sinyalinin frekans uzayndaki deerleri dk dereceli FIR(finite impulse response) bir filtreden geirilir. Bylece sinyal grltden arndrlm olur ve sadece sinyal karakteristiini belirleyen ksmlar elde edilir. Sinyalin gereksiz ksmlar ve grlt atlr. Birinci dereceden LPF(alak geirgen filtre)n transfer fonksiyonu: H(z)=1 / (1-a*z) a=-0.9375 (1)
0n< N
yada
(2)
a
i =1
* s ni
(3)
E =
N 1 n=0
2 en =
N 1
(s
n=0
2 p a *s ) k n k k =1
(4)
ck = ak + 1 / k *
i*c *a
i i =1
k 1
k i
k = 1,2,..., i 1
1< i < p
(5)
4.Gelitirme
Bu projede, teknolojik gelimeler paralelinde minimum hata hedefiyle ses sinyallerinin tannp konumacnn belirlenmesi zerine almalar yaplmtr. lk aamada, 6 kiiden a harfine ait 90 ses tane ses rnei alnm ve herbir rnekte 260 tane cepstral katsay bulunan vektrlerle bir veri taban oluturulmutur. Matlabda oluturulan YSA programna giri olarak veri tabanndaki vektrler verilmitir. Hedef k deerlerine gre sistem eitilmitir.Eitimde gradyan metodu kullanlmtr. Eitim ilemlerinin tamamlanmasnn ardndan sistem test edilmitir ve %10luk hata pay ile konumac doru olarak tannmaktadr.
ekil 3. Tasarlanan Yapay Sinir A Modeli k ise tamamen tasarma baldr . Sistemde konumacnn sei ve syledii harf nemlidir. Eer bu kiiler farkl harf sylerlerse, sistem bu sesi tanmaz dolaysyla, yabanc birinin sesi olarak alglar. ktaki 3 nron aadaki gibi kodlanmtr. X ve Y farkl kileri gstermektedir. Nron: O ! O ! O ! k: 1 0 0 X 0 1 0 Y 0 0 1 Yabanc
Ses rneklerinden oluturulan vektrler bir hcre dizisi (cell array) altnda tutulur.Bu, tasarlanan yapay sinir ann giri deeridir. Hedeflenen 3*1'lik vektrler de ayr bir hcre dizisinde bulunur. Tasarmda gizli katmann transfer fonksiyonu "tansig", knki ise "purelin"dir. Sistem "traingd" ile eitilmektedir. Traingd'nin kullanm amac, eitim ileminde tm verilerin ayn anda kullanlmasdr.Bu sayede sistemin daha hzl ve az hata ile almas salanr. nk, arlk deerleri performans fonksiyonunun gradyannn tersi ynde yenilenir. Bunun yannda programda "lr=0.05" renme oran, "epoch=100000" tekrarlama says, "goal=1*e-005" istenilen tolerans deeri gibi deikenlere uygun deer atanr ve sistem tm bu verilerle gre eitilir. ekil-4te YSAnn performans-ama erisi grlmektedir. Sistemin performans deeri, nceden belirlenen ama deerine tolerans miktar kadar yaklat zaman eitim ilemi sona erer. perf =mse(e) ile elde edilen performans deeri : perf = 9.9998e-006
5.Sonu
Ses rneklerinin alnmas, cepstral katsaylar ile veri tabannn oluturulmas, yapay sinir ann eitilip test edilmesi sonucunda denenen 10 ses kaydnn 9 tanesi doru olarak bulunmutur. Bu orann arttrlmas iin hem gizli katmandaki nron says hem de veri tabanndaki ses rneklerinin says arttrlp sistemin yeniden eitilmesi gerekir. Ayrca sistemin ktlar paralel porta gnderilerek eitli cihazlarn kontrol de yaplabilir. Bundan sonraki aamada belirli harfler yerine konumacnn tm harflerini tanyabilen bir sistem tasarlanabilir.
Kaynaklar
[1] Haykin S, Communication Systems. John Wiley, 2000. s: 188-187. [2]Botros, N., Deiri, M.Z., Hsu, P., Automatic voice recognition using artificial neural network approach Circuits and Systems, 1989.,Proceedings of the 32nd Midwest Symposium on, 1990 s: 763 -765 vol.2 [3] Cansz M., YSA ile Kiilerin Ses rneklerinden Kimliklerinin Tannmas Yksek Lisans Tezi, 1997, s:22. [4] Kuah, K., Bodruzzaman, M., Zein-Sabatto, S, A neural network-based text independent voice recognition system Proceedings of the 1994 IEEE ,1994 . s: 131 -135 [5] Ng, G.S., Erdogan, S.S., Pan, W.N, Neural networks for voice recognition Networks. International Conference on Information Engineering '93. 'Communications and Networks for the Year 2000', Proceedings of IEEE Singapore International Conference on , Volume: 1 , 1993 s: 383 -387 vol.1 [6] Robinson T., Speech Analysis, http://svr-www.eng.cam.ac.uk/~ajr/SA95, 1998. [7] Callan R.,The Essence of Neural Networks,1998. s: 20-56