You are on page 1of 4

SGN$14006)Audio)and)Speech)Processing)

)
Mel$frequency)cepstral))
coecients)(MFCCs))
Slides)for)this)lecture)are)based)on)those)created)by)Katariina)Mahkonen)for)TUT)
course)PuheenksiKelyn)menetelmt)in)Spring)2013.)
)

IntroducQon)
MFCC)coecients)model)the)spectral)energy)
distribuQon)in)a)perceptually)meaningful)way)
MFCCs)are)the)most)widely$used)acousQc)feature)
for)speech)recogniQon,)speaker)recogniQon,)and)
audio)classicaQon)
MFCCs)take)into)account)certain)properQes)of)the)
human)auditory)system)
CriQcal$band)frequency)resoluQon)(approximately))
Log$power)(dB)magnitudes))

Spectrogram)of)piano)notes)C1))C8)

Mel)scale)
Mel$frequency)scale)represents)subjecQve)(perceived))pitch.)It)is)one)of)the)
perceptually)moQvated)frequency)scales)(see)gure)below).))

f0)

f0)

Mel$scale)is)constructed)using)pairwise)comparisons)of)sinusoidal)tones:)a)reference)
frequency)is)xed)and)then)a)test)subject)(human)listener))is)asked)to)adjust)the)
frequency)of)the)other)tone)to)be)twice)higher)or)lower)
Models)the)non$linear)percepQon)of)frequencies)in)the)human)auditory)system)

For)comparison,)the)Bark)criQcal$band)scale)has)been)constructed)based)on)
the)masking)properQes)of)nearby)frequency)components.)
Constructed)by)lling)the)audible)bandwidth)with)adjacent)criQcal)bands)126)

Note)that)all)the)scales)are)related)and:))fMel))100fBark)))(very)roughly))
f0)
mm. on basilar membrane
frequency / kHz

Note)that)the)fundamental)frequency)doubles)in)each)octave)and))
the)spacing)between)harmonic)parQals)doubles)too.)

frequency / mel
frequency / Bark

Mel)scale)
f Mel = 2595 log10 (1 +

f Hz
)
700

Piano)tones)C1))C8)
)
)
Mel$frequency)
spectrogram)
)
)
)
)
and)
)
)
)
)
Bark$scale)
spectrogram)
)

)))The)anchor)point)for)Mel)scale)is)chosen)so)that)1000)Hz)=)1000)Mel))

ProperQes)of)human)hearing)
percepQon)of)loudness)dierences)
Weber)rule)says)that)the)perceived)change)in)a)physical)
quanQty)is)proporQonal)to)the)relaQve)change:)
)

Therefore)it)makes)sense)to)measure)sound)levels)in)
decibels:)LI = 10log10(I)

Now lets get back to the calculation of


MFCC coefficients The most widely-used
acoustic feature used to represent a speech
frame (in speech recognition for example)

CalculaQon)of)MFCC)coecients)

CalculaQon)of)MFCC)coecients)

Dene)triangular)bandpass)lters)uniformly)distributed)
on)the)Mel)scale)(usually)about)40)lters)in)range)08kHz).)

Dene)triangular)bandpass)lters)uniformly)distributed)
on)the)Mel)scale)(usually)about)40)lters)in)range)08kHz).)
DFT)bin)energies)within)the)passband)of)each)lter)are)
max bin
cumulated)(J(z))is)the)triangular)response):) E(k) = J( )S( ) 2
b=min bin

CalculaQon)of)MFCC)coecients)

CalculaQon)of)MFCC)coecients)

Dene)triangular)bandpass)lters)uniformly)distributed)
on)the)Mel)scale)(usually)about)40)lters)in)range)08kHz).)
DFT)bin)energies)within)the)passband)of)each)lter)are)
max bin
cumulated)(J(z))is)the)triangular)response):) E(k) = J( )S( ) 2

Dene)triangular)bandpass)lters)uniformly)distributed)
on)the)Mel)scale)(usually)about)40)lters)in)range)08kHz).)
DFT)bin)energies)within)the)passband)of)each)lter)are)
max bin
cumulated)(J(z))is)the)triangular)response):) E(k) = J( )S( ) 2

b=min bin

Take)logarigthm)of)each)E(k),)k=1,2,K)

b=min bin

Take)logarigthm)of)each)E(k),)k=1,2,K)
Calculate)discrete)cosine)transform)(DCT)II))of)vector)log(E))

CalculaQon)of)MFCC)coecients)
Dene)triangular)bandpass)lters)uniformly)distributed)
on)the)Mel)scale)(usually)about)40)lters)in)range)08kHz).)
DFT)bin)energies)within)the)passband)of)each)lter)are)
max bin
cumulated)(J(z))is)the)triangular)response):) E(k) = J( )S( ) 2
b=min bin

Take)logarigthm)of)each)E(k),)k=1,2,K)
Calculate)discrete)cosine)transform)(DCT)II))of)vector)log(E))
!)MFCCs)are)DCT)coecients)of)vector)log(E))

Why)are)MFCC)coecients)successful)
in)audio)classicaQon?)
Perceptually$moQvated)(near)log$f))frequency)resoluQon)
Perceptually$moQvated)decibel$magnitude)scale)
Discrete)cosine)transform)decorrelates)the)features)
(improves)staQsQcal)properQes)by)removing)correlaQons)
between)the)features))
Convenient)control)of)the)model)order:)picking)only)the)
lowest)N)coecients)gives)lower$resoluQon)approximaQon)
of)the)spectral)energy)distribuQon)(vocal)tract)etc.))

You might also like