You are on page 1of 9

21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes

entes com Doença de Parkinson

Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel


Estimation Density para Pacientes com Doença de Parkinson
Shanshan Yang, Fang Zheng, Xin Luo, Suxian Cai, Yunfeng Wu , Kaizhi Liu, Meihong Wu, Jian Chen, Sridhar Krishnan

Publicado em: 20 de fevereiro de 2014 DOI: 10.1371/journal.pone.0088825

Abstrato
Detecção de disfonia é útil para monitorar a progressão da insuficiência fonatório para pacientes com doença de Parkinson (DP), e também ajuda a avaliar a gravidade
da doença. Este artigo descreve os métodos de análise de padrões estatísticos para estudar diferentes medidas vocais de phonations sustentados. O processo de
redução de dimensão recurso foi implementado usando a seleção seqüencial para frente (SFS) e análise de componentes principais do kernel (KPCA) métodos.
Quatro medidas vocais selecionados foram projetadas pelo KPCA para o espaço de características bivariada, na qual as densidades característica condicional de
classe pode ser aproximado com o kernel densidade técnica de estimativa não-paramétrica. Nos experimentos de classificação de padrões vocais, a análise
discriminante linear de Fisher (FLDA) foi aplicado para realizar a classificação linear de gravações de voz para controle de indivíduos saudáveis ​
e pacientes com DP,
eo máximo a posteriori (MAP) regra de decisão e máquina de vetor de suporte (SVM) com kernels função de base radial foram empregados para as tarefas de
classificação não-lineares. Com base nas densidades característica KPCA-mapeados, o classificador MAP distinguido com sucesso 91,8% de registros de voz, com
uma taxa de sensibilidade de 0,986, uma taxa de especificidade de 0,708, e um valor de área de 0,94 sob a característica de operação do receptor (ROC). O
desempenho de diagnóstico fornecido pelo classificador MAP foi superior aos dos classificadores FLDA e SVM. Além disso, os resultados da classificação indicou
que sexo é insensível a detecção de disfonia, e os phonations sustentados de pacientes com DP com incapacidade funcional mínimo são mais difíceis de ser
identificadas corretamente.

Figuras

Citação: Yang S, Zheng F, Luo X, S Cai, Wu Y, et al. (2014) Detecção de disfonia eficaz Usando Redução Dimensão Característica e Kernel Density
Estimativa para pacientes com doença de Parkinson. PLoS ONE 9 (2): e88825. doi: 10.1371/journal.pone.0088825

Edição: Howard Nusbaum, The University of Chicago, Estados Unidos da América

Recebido: 22 de outubro de 2013; aceito: 12 de janeiro de 2014; Publicado em: 20 de fevereiro de 2014

Direitos de autor: © 2014 Yang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution , que permite
uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados.

Financiamento: Este trabalho foi financiado pela Fundação Nacional de Ciência Natural da China (não conceder 81101115, 31200769, 81272168.), a
Fundação de Ciência Natural de Fujian (conceder nenhuma 2011J01371.) e os fundos de pesquisa fundamental para a Universidades Central da China (
conceder nenhum. 2010121061). Yunfeng Wu também foi apoiado pelo Programa de 2013 para Novo Século excelentes talentos na Província de Fujian
University. Sridhar Krishnan foi apoiado pelo Conselho de Pesquisa em Ciências Naturais e Engenharia do Canadá (NSERC) e do Canadá Research Chairs
Programa. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito.

Conflito de interesses: Os autores declaram que não existem interesses conflitantes.

Introdução

A disfonia é um tipo de transtorno de fonação com uma deficiência na capacidade de produzir sons de voz normais [1] . Manifestação de voz disfonia é caracterizada
por rouquidão ou fraqueza na fonação [2] . Como as causas funcionais de disfonia, distúrbios neurológicos, por vezes, fazer interrupções neurogênicas nos caminhos
de nervos da laringe que podem interferir no normal de vibração das pregas vocais durante a expiração [3] . A disfonia é prejudicial para a qualidade de vida, porque a
fala prejudicada paciente muitas vezes encontra dificuldade em comunicação pessoal que leva à depressão e ainda deficiência social [4] . Um grande número de
pacientes com a doença idiopática de Parkinson (DP) sofrem de dysprosody disartria e [5] . De acordo com o levantamento de Hartelius e Svensson [6] , mais de
70% dos pacientes com DP experimentou déficit discurso e comprometimento voz após o início de sua doença, e apenas 3% dos pacientes receberam terapia da
fala. Ho et al. [5] utilizaram o método clínico-perceptual para estudar as dificuldades de fala na DP. Provaram a dois minutos de discurso de conversação de 200
pacientes com DP, e examinaram os perfis de déficit de fala (ou seja, voz, articulação e fluência) [5] . O estudo mostrou que a voz era o déficit de liderança na fase
inicial da DP, e articulatórios e fluência déficits manifestado na fase grave de PD [5] .

As medidas quantitativas de comprometimento da fala pode ajudar a avaliar os níveis de gravidade do comprometimento da fala em pacientes com DP e estudar os
parâmetros de voz prejudicada específicas [7] . As investigações qualitativas e quantitativas simultâneas são capazes de caracterizar o tremor exagerado vocal, voz
fraca, aspereza, e outros sintomas disfônicos na DP idiopática, que, às vezes, ser confundido com disfonia espasmódica (uma anomalia caracterizada por espasmos
da laringe das cordas vocais) em clínica diagnóstico [8] . Recentemente, sistemas de telemedicina com acesso à rede avançada foram efetivamente utilizados para
monitoramento remoto de pacientes com insuficiência vocal [9] . A tecnologia de telemedicina fornece soluções de monitoramento clínico relativamente de baixo
custo que ajudam a reduzir visitas físicas freqüentes para os pacientes [10] . Como sugerido por Little et al. [10] , esses sistemas de telemedicina para chamar
ferramentas clínicas mais confiáveis ​e medidas da fala para a detecção e monitoramento de sintomas vocais em PD preciso.

Um certo número de novos métodos de medição da fala foram desenvolvidas para avaliar os sintomas de disfonia na última década, [2] , [3] , [11] - [13] . O objetivo de
tais medidas discurso é caracterizar as características dos sinais acústicos associados a distúrbios de fonação. Imparidade de pregas vocais, muitas vezes faz com

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 1/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson
que o movimento irregular em um ou ambos os lados da glote que leva a padrões de vibração patológicos, tais como flutuações de freqüência passo, alterações do
volume do fluxo de ar e alteração amplitude [2] . Assim, disfonia é frequentemente observado na produção de sons de vogais. A freqüência fundamental (F0) em
vogais, média de F0, a variação de F0 (jitter), a variação de amplitude de voz (brilho), a intensidade de um ciclo vocal para outro são as medidas electroglottographic
mais utilizados em testes de fala padrão [14] - [17] . Zwirner e Barnes [14] relatou que o desvio padrão de F0 em vogais prolongadas é muito maior para os pacientes
com DP em comparação com indivíduos saudáveis ​ de controle. O estudo da Hertrich e Ackermann [15] indicaram aumento jitter e maior média de F0 nas vogais
prolongadas para pacientes com DP. Goberman et al. [16] , [17] compararam as características acústicas-fonatório de alto-falantes de Parkinson antes e depois de
tomar a medicação, e encontraram maior variabilidade F0 e diminuição da faixa de intensidade (diferença entre o mais alto e mais silenciosos prolongamentos) no
discurso disfluent de PD pacientes. Cnockaert et al. [18] utilizaram a técnica de ondaletas para extrair o traço freqüência fonatório e modulação vocal de baixa
freqüência em vogal sustentada. O estudo sugere que a freqüência de fonação média é significativamente maior para indivíduos do sexo masculino com doença de
Parkinson, ea modulação de amplitude é significativamente maior para mulheres com DP [18] . Recentemente, ferramentas de análise de dinâmica não-linear têm
sido utilizados para estudar os padrões de oscilação vocais na insuficiência fonatório Parkinson. Rahn et al. [19] empregou a reconstrução do espaço de fase e de
correlação de métodos de dimensão para medir a natureza da perturbação nas vozes aperiódicos da DP idiopática. Os resultados mostraram que os valores de
dimensão de correlação são significativamente maiores em pacientes com DP do que os de indivíduos controle, o que implica um aumento da complexidade dos
sinais de fonação na DP patologia vocal [19] . A fim de superar as limitações de medição perturbação vocal na escala de tempo e transformada de Fourier no domínio
da freqüência, Little et al. [13] propôs a análise de recorrência de espaço de estados de tempo de atraso ea análise de escalonamento fractal de explorar a não-
linearidade na patológico vozes fonação. A análise flutuação retificada e métodos de análise discriminante quadrática foram utilizados para investigar as propriedades
de auto-similaridade (em termos de escala expoente) de flutuações vocais associadas ao PD [10] , [13] . No presente trabalho, pretendemos estudar as correlações
mútuas entre os diferentes parâmetros nas medidas vocais, e também para desenvolver um método eficaz para a classificação padrão vocal. É a hipótese de que as
características mais informativas com relação à freqüência fundamental, amplitude da variabilidade e dinâmica em flutuações vocais poderiam ser adequadamente
selecionados e utilizados os métodos de análise não linear para a classificação exata de padrões DP.

Materiais e Métodos

Preparação Dataset

O conjunto de dados utilizado neste estudo foi doado por Little et al. [10] , e também está disponível on-line através da Universidade da Califórnia em Irvine (UCI)
aprendizado de máquina repositório [20] . Os dados de fonação conter 195 registros de vogal sustentada proferidas pelo total de 31 indivíduos. Houve 8 indivíduos
saudáveis ​de controle (3 homens e 5 mulheres), com idade média de 60,2 anos (desvio padrão: 8,6 anos), que participaram nos testes de fala. Os pacientes com DP
incluiu 16 homens e 7 mulheres (média e desvio padrão da idade: 67,8 ± 9,7 anos). O estágio da doença de cada paciente PD foi avaliada com a escala de Hoehn e
Yahr (H & Y) escala [21] , um método de classificação progressão PD amplamente utilizado na prática clínica. Figura 1 mostra os números detalhados dos pacientes
com DP com diferentes estágios de H & Y. Pode-se observar que a maioria (82,6%) dos pacientes com DP foram submetidos ao curso intermediário da doença (1 <H
& Y <3,5).

Figura 1. gravidade do comprometimento neurológico em termos de Hoehn e Yahr (H & Y) escala para os pacientes com doença de Parkinson
(DP).
doi: 10.1371/journal.pone.0088825.g001

As vogais vocais foram gravados usando um microfone montado na cabeça posicionada a 8 cm dos lábios. O microfone foi calibrado com um medidor de nível de som
Classe 1 (Brüel & Kjaer Tipo 2238 Mediator) colocado 30 centímetros na frente de cada assunto [10] . Os sinais acústicos foram digitalizadas com resolução de 16
bits e a taxa de amostragem de 44,1 kHz, e as amostras de sinal foi normalizado em amplitude [10] . Little et al. [10] implementou o programa de voz
multidimensional Kay Pentax (MDVP) para medir as perturbações nos registros de vogal sustentada. Tais medidas incluem o período de perturbação (jitter) e
amplitude (Cintilante) perturbações e harmônico-ruído (e ruído-harmônicos) rácios. Eles também computados os parâmetros não-lineares, como a dimensão de
correlação (D2), a entropia recorrência densidade período (RPDE), a análise de flutuações depuradas de tendências (DFA), e período de arremesso entropia (PPE)
[10] . Com base nas medidas de perturbação e não lineares vocais, a máquina de suporte vector padrão (SVM) foi aplicada para distinguir os padrões vocais normais
e patológicos [10] . O conjunto de dados também continha duas medidas não-linear de variação da freqüência fundamental: Spread1 e Spread2. Todos os indivíduos
recrutados nos experimentos de Little et al. [10] fornecer seu consentimento livre e esclarecido como supervisionado pela Universidade de Oxford, Reino Unido, e do
Centro Nacional dos EUA para voz e fala, Denver, Colorado. A análise dos dados os documentos metodológicos deste estudo foram aprovados pelo Conselho de
Revisão Institucional da Universidade de Xiamen.

Análise de recursos

Redução dimensão recurso.

A matriz de correlação entre os pares de medidas vocais é mostrado na fig. 2 . Faz-se notar que um certo número de medidas vocais estão altamente
correlacionados com os outros, porque algumas medidas indicadas as características semelhantes dos sinais acústicos no conjunto de dados. Os grupos de
medidas vocais semelhantes são perturbações de época (MDVP: Jitter (%), MDVP: Jitter (ABS), MDVP: Rap, MDVP: PPQ, Jitter: DDP), perturbações de amplitude

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 2/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson
(MDVP: Shimmer, MDVP: Shimmer (dB), Shimmer: apq3, Shimmer: APQ5, MDVP: APQ11, Shimmer: DDA) e medidas não-lineares (DFA, EPI). Em particular, o
Shimmer: DDA e Shimmer: relacionamento medidas apq3 exposição completamente colineares (o coeficiente de correlação igual a 1). Little et al. [10] primeiro
normalizou os valores de recursos na faixa numérica [-1, 1] para melhorar o desempenho da classificação de máquinas de vetores de suporte (SVM). Em seguida,
eles procuraram através dos pares de medidas altamente correlacionados (o coeficiente de correlação maior que 0,95), e removeu uma medida arbitrária em cada par
[10] . O procedimento de filtragem correlação excluídos as seguintes medidas: MDVP: Jitter (%), MDVP: RAP, MDVP: PPQ, MDVP: Shimmer, MDVP: Shimmer
(dB), Shimmer: apq3, Shimmer: APQ5, com os restantes dez medidas para uma maior classificação SVM [10] .

Figura 2. visualização Gráfico de matriz de correlação para as medições vocais, com o mapa de cores que vão do azul (para o coeficiente de
correlação negativa) ao vermelho (para o coeficiente de correlação positiva).
doi: 10.1371/journal.pone.0088825.g002

Nesta investigação, foi realizado o método (SFS) seleção seqüencial para frente [22] para selecionar as medidas dominantes e excluir as medidas similares que
contribuem a informação redundante. A regressão logística [23] foi utilizado no processo de selecção SFS para avaliar o desempenho. O SFS é um algoritmo de
busca gulosa que começa a partir de um conjunto de recursos vazia, e depois sequencialmente acrescenta e combina com as características para maximizar o
desempenho de regressão logística. O conjunto de recursos obtidos pelo método SFS incluído: MDVP: F0, MDVP: Jitter (%), DFA, Spread2.

Também implementamos a análise de componentes principais do kernel (KPCA) para projetar a SFS apresenta para o espaço mapeamento bidimensional. O PCA
faz a transformação ortogonal ao converter medidas multivariadas em alguns componentes principais linearmente não correlacionadas. O KPCA é uma extensão
baseado no kernel do método PCA que realiza um mapeamento característica não-linear no kernel do espaço de Hilbert [24] . No presente trabalho, o KPCA foi
realizada com o kernel polinomial, que pode ser expresso como [23] :

(1)

onde representa o vetor de medidas vocais SFS-selecionados, denota a ordem polinomial, e é a intercepção. Foram pesquisados ​ os parâmetros do kernel
polinomiais na faixa de 1 a 10, e escolheu e , o que poderia fazer uma distância máxima euclidiana de padrões vocais entre o controle saudável e grupos
de indivíduos com DP.

Densidade característica estimativa.

No presente trabalho, foi utilizado o kernel densidade técnica de estimativa não-paramétrica, a fim de proporcionar a distribuição padrão vocal dos recursos KPCA-
mapeados. O princípio da estimativa da densidade kernel usa o padrão observado finito dispersa para aproximar a natureza das distribuições de classe. Deixe o
vector denotar o conjunto de recurso KPCA, onde e são usados ​
para expressar o primeiro e segundo componentes principais. O rótulo de
classe do padrão vocal é representado como , com e denotando os grupos de controles saudáveis ​e pacientes com DP, respectivamente. Com base nos
padrões vocais de um grupo determinado assunto, o método de estimativa de densidade kernel pode aproximar a densidade característica condicional de classe
com as funções do kernel como [25]

(2)

A função kernel gaussiano bivariado é apresentado como

(3)

em que indica a localização central do th-padrão vocal no grupo sujeito .

Porque o KPCA produz a projecção ortogonal para os componentes principais, o coeficiente de correlação entre os primeiros e segundos componentes principais é
igual a zero. Assim, a matriz covariância que determina a largura de propagação função do kernel de Gauss é uma matriz diagonal, como escrito
, em que e são os desvios de primeiro e segundo componentes principais, respectivamente. O fator de
escala é usada para coordenar a área de expansão da função kernel gaussiano no espaço de características KPCA. Foram pesquisados ​
o fator de escala no

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 3/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson
intervalo numérico [0, 1] com um incremento de 0,01, e selecionados que poderia fazer a melhor resolução de contorno de cerca de densidades característica
KPCA no presente estudo. Regulamentado pelo parâmetro fator de escala , a matriz de covariância 2-por-2 tornou-se diagonal
. No experimento de computador, a matriz de covariância foi única para ambos os grupos de controles saudáveis ​
e pacientes com DP.

Vocal Pattern Classification

Com as densidades condicional de classe estimadas de recursos KPCA, foi empregado o máximo a posteriori (MAP) regra (também conhecida como regra de
decisão de Bayes) [26] , para executar a classificação de padrões vocais. No presente trabalho, a posteriori probabilidade indica a possibilidade de um
padrão vocal com seu vetor característica observada pertencente a qualquer controle saudável ou grupo recorde PD voz . De acordo com a fórmula de Bayes, a
posteriori probabilidade pode ser calculada a partir da densidade de probabilidade condicional de classe como

(4)

em que o dependente de classe a priori probabilidade apresenta a possível ocorrência de um grupo vocal registro particular. O classificador MAP reconhece o
padrão vocal observou pertencente ao registro PD se o seu a posteriori probabilidade , vice-versa.

Além do classificador MAP, também implementado o SVM para comparação do desempenho de classificação. O SVM é uma rede neural artificial baseado no kernel,
que treina os parâmetros de rede para minimizar o risco estrutural [27] . O SVM é capaz de executar a mesma função que a rede neural de multicamadas (por
exemplo, perceptron multicamadas ou radial da rede de função de base), escolhendo os grãos não-lineares do produto interno correspondentes. Durante a otimização
de parâmetros SVM, os dados de treinamento que geometricamente localizar perto da fronteira de decisão será selecionado como os vetores de suporte, que são
considerados para ser informativo para a classificação. A aprendizagem SVM podem ser formulados como o seguinte problema de programação quadrática restrita no
que diz respeito à função de custo convexa [27] - [29] :

(5)

onde e são os vetores de peso e de erro, é uma constante real positiva, e denota o vetor de características KPCA mapeada do th-padrão vocal. No presente
trabalho, comparamos o desempenho do SVM com polinomial, sigmóide e radial função de base (RBF) kernels, e, em seguida, escolheu os kernels RBF padrão
para construir os vetores de suporte.

Também empregou análise discriminante linear de Fisher (FLDA) para realizar a classificação binária de padrões vocais. O FLDA não exigem as suposições de que
os padrões de diferentes grupos estão com as distribuições normais ou covariâncias iguais de classe. O FLDA procura do vector de parâmetros , que maximiza a
separabilidade da classe no espaço de característica para realizar a discriminante linear como [23] , [30]

(6)

onde é a matriz dentro da classe de dispersão como a soma das variâncias intra-classes, e

é a matriz de dispersão entre classe.

No presente estudo, foi implementado o método de validação cruzada de 5 vezes para avaliar o desempenho de classificação para cada classificadores. O conjunto
de dados inteiro foi dividido em cinco subconjuntos disjuntos. Quatro subgrupos foram usados ​
para treinar os classificadores, eo subconjunto restante foi usado para
testes. O procedimento foi repetido durante cinco ensaios, utilizando em cada um subconjunto diferente de validação.

Resultados

O método SFS seleciona o MDVP: F0, MDVP: Jitter (%), DFA, e Spread2 medidas como dominantes. Pode-se observar a partir Tabela 1 que quatro medidas vocais
possuem gama métrica diferente. Por exemplo, a diferença dos valores médios entre os registros de CO e DP para MDVP: F0 é com uma ordem muito maior de
magnitudes do que para MDVP: Jitter (%), apesar de ambas as duas medições apresentar as perturbações vocais na freqüência fundamental. Em trabalho anterior de
de Little et al. [10] , todos estes medições vocais foram normalizados para diminuir a influência de grandezas de medição variante sobre outras classificações. Nas
nossas experiências, o KPCA foi aplicado para reduzir as dimensões de recursos projectando quatro medições vocais para um espaço bivariada, em que os padrões
de voz com as características KPCA mapeados também exibem distribuições distintas de dispersão.

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 4/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson

Tabela 1. Estatísticas das medições vocais selecionados pelo método (SFS) a seleção para a frente seqüencial.
doi: 10.1371/journal.pone.0088825.t001

A Figura 3 fornece as densidades estimadas padrão vocal dos grupos CO e PD no espaço característica KPCA-mapeada. De acordo com os dispersa localizados na
fig. 4 , a área de agregação de padrões vocais associados com pacientes com DP mostra uma alta densidade no vermelho. Por outro lado, os padrões vocais do
grupo CO, possuem características de densidade multimodal. Como representado na fig. 4 , a maioria dos padrões vocais de CO (30 registros) dispersa no lado
inferior esquerdo do espaço de características. Além disso, cerca de um quarto do número de padrões vocais de CO (18 registros) converge como um pequeno
aglomerado no canto inferior direito (ver a área de alta densidade na cor azul). As densidades de recursos estimados fazer a distribuição padrão vocal visível no
espaço bivariada.

Figura 3. distribuições bivariadas de padrões vocais na análise de componentes principais do kernel (KPCA) avião recurso de mapeamento.
Distribuições padrão vocal para os controles saudáveis ​
(CO) e pacientes com doença de Parkinson (DP) são exibidos com a cor fria mapa (azul para a maior
densidade) e mapa de cores quentes (vermelho para a maior densidade), respectivamente.
doi: 10.1371/journal.pone.0088825.g003

Figura 4. Espalhe parcelas dos padrões vocais no primeiro e segundo avião componentes principais baseadas em kernel para controles
saudáveis ​ (CO) e de pacientes com doença de Parkinson (DP).
A fronteira de decisão fornecidos pelo máximo a posteriori classificador (MAP) separa os padrões vocais associados com o grupo CO e PD.
doi: 10.1371/journal.pone.0088825.g004

Figura 5 apresenta os resultados de classificação obtidos pelos três classificadores. O classificador MAP distingue com sucesso 91,8% (179 voz registra entre o
total de 195 registros) padrões vocais, com uma taxa de sensibilidade de 0,986 (145 registros corretos PD), uma taxa de especificidade de 0,708 (34 registros de CO
corretas), e uma área de 0,94 sob a curva característica operacional do receptor (ROC). Existem 167 registros de voz corretamente distinguidos pelo SVM (precisão
geral: 85,6%, área ROC: 0,85), incluindo 127 registros DP (sensibilidade: 0,864) e 40 registros de CO (especificidade: 0,833). O FLDA permite uma classificação
linear com a taxa de precisão de 79% (154 registros corretos voz), a taxa de sensibilidade de 0,857 (126 registros PD), a taxa de especificidade de 0,583 (28
registros CO), e uma área de 0,83 sob a curva ROC.

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 5/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson

Figura 5.
Desempenho diagnóstico dos classificadores: ( A curvas) receptor característica de funcionamento (ROC) produzidas pelo máximo a posteriori (MAP)
classificador, máquina de vetor de suporte (SVM), e análise discriminante linear de Fisher (FLDA); ( B ) resulta de precisão da classificação, a sensibilidade,
especificidade e área sob receiver operating characteristic (ROC) curva obtida pelos três classificadores.
doi: 10.1371/journal.pone.0088825.g005

É interessante notar a partir de figura. 5B que o classificador MAP supera os outros dois classificadores com maior grau de precisão, a área sob a curva ROC, e
sensibilidade. Tais resultados implicam que o classificador MAP tem a superioridade em reconhecimento de gravações de voz DP sobre o SVM e FLDA. Por outro
lado, o classificador SVM produz uma taxa mais elevada do que a especificidade ou a MAP ou FLDA, o que indica algumas vantagens para a categorização de
registos CO voz. Em geral, a classificação não linear (por meio da MAP ou o SVM) é melhor do que a classificação linear (por meio do FLDA). O FLDA não alcançar
os resultados obtidos por um dos classificadores não lineares, em qualquer um dos critérios de avaliação de classificação (ou seja, de precisão, área sob a curva
ROC, especificidade e especificidade).

A Tabela 2 lista as informações sujeitas detalhadas relacionadas com os registros de voz seja classificada incorrectamente pelo SVM e MAPA classificadores.
Discurso Apenas um paciente PD não foi possível identificar precisamente pelo classificador MAP. Notando que o paciente PD é a incapacidade funcional mínima
(com H & Y etapa 1), uma tal má classificação poderia ser tolerado em aplicações clínicas. Uma série de gravações de voz classificados incorretamente pelo
classificador MAP foram ditas pelos sujeitos S43, S49, S50 e. Alguém pode supor que se a classificação MAP tende a ser sujeito-dependente. Mas observa-se que
os mesmos registros são classificados erroneamente pelo classificador SVM também. Tais resultados, em nossa opinião, não é persuadir a inferir que a
classificação MAP está sujeita-dependente. Para a classificação SVM, por outro lado, os registros de voz de mais disciplinas não são corretamente detectado.
Alguns assuntos são com leve deficiência moderada (com H & Y estágios 2 a 3), o que implica a fraqueza do classificador SVM para a detecção de voz patológica.
Assumimos que o tamanho limitado de conjunto de dados pode ser uma causa possível. O classificador SVM tem de seleccionar vectores suporte informativo para
construir a fronteira de decisão, por conseguinte, um pequeno número de dados de fonação que resultaria em um viés de tomada de decisão. Além disso, o número
de indivíduos do sexo masculino que não é significativamente diferente da dos indivíduos do sexo feminino de uma das duas listas de erro de classificação, o que
indica que o género é insensível na detecção de voz patológica da doença de Parkinson.

Tabela 2. Detalhes das informações do assunto nos registros classificados incorretamente pelo máximo a posteriori (MAP) e máquina de vetor de
suporte (SVM) classificadores.
doi: 10.1371/journal.pone.0088825.t002

Discussão

As características selecionadas: MDVP: F0, MDVP: Jitter (%), DFA, e Spread2 forneceu as informações úteis sobre voz patológica em diferentes aspectos clínicos.

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 6/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson
A freqüência fundamental F0 quantifica a freqüência das pregas vocais vibração. A medida jitter período perturbação corresponde à variação ciclo-a-ciclo da frequência
fundamental. As interrupções causadas pela doença de Parkinson nos caminhos nervosos pode resultar em paralisia neurogênica dos nervos recorrentes, os nervos
laríngeos superiores, ou os nervos vagos. A irregularidade de vibração das pregas vocais mudaria a média de F0, a variabilidade da freqüência (jitter) e amplitude de
voz, o que pode ser medido ao longo de fonação de uma vogal sustentada. Por outro lado, a DFA é usado para descrever as propriedades de auto-similaridade
estocásticos do ruído causado pelo fluxo de ar turbulento no trato vocal. Breathiness e outra voz disfonia causada pelo fechamento incompleto dobra vocal levaria a
um aumento do valor DFA [9] . O parâmetro complexidade dinâmica não linear Spread2 também pode caracterizar o grau de efeitos de turbulência em que o sinal
acústico [10] . O valor Spread2 está fortemente associada com a resposta disfonia. O presente estudo demonstrou as contribuições predominantes dessas quatro
características para a análise de padrões vocais DP.

Figura 6 parcelas os padrões vocais espalhados com pares de os recursos selecionados. Vale a pena notar que os padrões vocais associados com os controles
saudáveis ​e pacientes com DP ainda estão sobrepostos nos espaços de recursos bidimensionais. Entre essas combinações de pares de características
selecionadas, os pares de características de MDVP: F0-DFA e DFA-Spread2 poderia fornecer distribuições padrão relativamente melhor separáveis ​
na Fig. 6B e 6F .
Nós validado o desempenho do classificador MAP com estes dois pares de características, utilizando o método de validação cruzada de 5 vezes. As taxas de
classificação precisos eram 85,1% (área ROC: 0,9) e 85,6% (área ROC: 0,93) para o MDVP: F0-DFA e pares de características DFA-Spread2 respectivamente, que
eram piores do que os resultados obtidos com os recursos baseados em KPCA . É claro que o método KPCA pode projetar as características vocais selecionados,
com os grãos não-lineares, para o espaço bivariada visível para separabilidade superior e interpretação de decisão.

Figura 6.
Gráficos de dispersão dos padrões vocais associadas aos controles saudáveis ​ (CO) e pacientes com doença de Parkinson (DP) nos espaços de recursos
bidimensionais de ( A ) MDVP: F0 e MDVP: Jitter (%), ( B ) MDVP: F0 e análise de flutuações depuradas de tendências (DFA), ( C ) MDVP: F0 e Spread2, ( D
) MDVP: Jitter (%) e DFA, ( E ) MDVP: Jitter (%) e Spread2, e ( F ) DFA e Spread2, respectivamente .
doi: 10.1371/journal.pone.0088825.g006

O presente estudo não requer o procedimento de normalização dos dados de entrada. Little et al. [10] implementou o redimensionamento dos valores de recursos na
faixa numérica de -1 a 1, com a motivação de melhorar o desempenho da classificação SVM. Esse pré-processamento de dados, em nossa opinião, pode causar
alguns obstáculos na análise de dados. Primeiro, o redimensionamento ou normalização não é robusto para o conjunto de dados de tamanho pequeno (o número
total de registros de voz mais baixos do que 200 no conjunto de dados). Gravações de voz adicionais recrutados que excedam o extremo atual de valores
característica exigiria outro redimensionamento, de tal forma que o classificador SVM deve ser re-treinados que consome muito mais tempo de computação. Por
outro lado, a informação de grandeza física sobre as medições de voz seria perdida após a normalização dos dados. Portanto, não é conveniente para os médicos
especialistas a utilizar os dados localizados em torno do limite discriminante, por exemplo, os vetores de suporte, como os indicadores importantes para a seleção
de gravações de voz patológicas. Além disso, sem a normalização dos dados, o classificador MAP é capaz de alcançar a precisão global de 91,8%, o que é melhor
do que o trabalho relacionado anterior (precisão de 91,4% obtido pelo SVM com dez características normalizadas) de Little et al. [10 ] , e também comparável aos
resultados (precisão de 92,8%) realizadas pelo SVM com reamostragem de bootstrap de dados no trabalho de Sakar e Kursun [3] .

Conclusão

Detecção disfonia eficaz fornece uma análise mais quantitativa dos distúrbios de fonação, em direção a melhores tratamentos médicos ou comportamentais para
melhoria da fala. No presente estudo, foi estudada a matriz de correlação das medidas vocais que indicam o período, amplitude, e perturbações não-lineares em
registros de vogal sustentada. As medidas vocais dominantes de MDVP: F0, MDVP: Jitter (%), DFA, e Spread2 foram selecionados pelo método SFS, o que poderia
reduzir as dimensões para análise de padrões. O método de estimativa da densidade do kernel não paramétrico estabelecido as distribuições bivariadas visíveis das
densidades característica KPCA-mapeados. Com base em densidades de recursos previstos, o classificador da PAM foi capaz de proporcionar um excelente
desempenho de classificação, superior ao do classificador FLDA e SVM com grãos RBF. Os resultados experimentais demonstraram o mérito do recurso de redução
de dimensão e modelagem de densidade kernel para análise do padrão vocal. A maior taxa positiva verdadeira (sensibilidade) e o número mínimo de indivíduos
erroneamente classificados também mostraram a eficácia do classificador MAP para a detecção de distúrbios fonação. O tamanho relativamente pequeno de dados
de fonação limita a capacidade de classificação não-linear do classificador SVM. A partir do presente trabalho, nós também concluir que o sexo não é um fator
sensível para os distúrbios de fonação, e os pacientes com DP com incapacidade funcional mínimo são mais propensos a ser identificado incorretamente na
detecção disfonia. Notando que metade das medidas vocais SFS-seleccionadas foram gerados pelas ferramentas de análise dinâmica não linear, acredita-se que o
desenvolvimento de medições de oscilação não linear vocais tem um elevado potencial no controlo da progressão da deficiência da fonação em estudos futuros.

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 7/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson
Agradecimentos

Os autores gostariam de agradecer Max A. Little, Patrick E. McSharry, Eric J. Hunter, Jennifer Spielman, e Lorraine O. Ramig, para o trabalho de aquisição de dados
e de doação.

Autor Contribuições

Concebido e desenhado os experimentos: YW. Realizada os experimentos: SY FZ XL SC KL YW. Analisados ​


os dados: SY SC YW MW JC. Ferramentas reagentes
contribuíram / materiais / análise: XL YW SK. Escreveu o papel: YW SY SC.

Referências

1. Benninger MS, Ahuja AS, Gardner G, Grywalski C (1998) Avaliação de resultados para os pacientes disfônicos. Jornal da Voz 12: 540-550. doi:
10.1016/s0892-1997 (98) 80063-5
Ver artigo PubMed / NCBI Google Scholar

2. Behroozmand R, Almasganj F (2007) a seleção ideal de-baseadas em pacotes wavelet recursos usando algoritmo genético na avaliação patológica do sinal
de fala dos pacientes com paralisia unilateral de prega vocal. Computadores em Biologia e Medicina 37: 474-485. doi: 10.1016/j.compbiomed.2006.08.016
Ver artigo PubMed / NCBI Google Scholar

3. Vaziri G, Almasganj F, Behroozmand R (2010) a avaliação patológica de sinais de voz dos pacientes através da análise dinâmica não-linear. Computadores
em Biologia e Medicina 40: 54-63. doi: 10.1016/j.compbiomed.2009.10.011
Ver artigo PubMed / NCBI Google Scholar

4. Pell MD, Cheang HS, Leonard CL (2006) O impacto da doença de Parkinson em comunicação vocal-prosódica a partir da perspectiva dos ouvintes. Cérebro e
Linguagem 97: 123-134. doi: 10.1016/j.bandl.2005.08.010
Ver artigo PubMed / NCBI Google Scholar

5. Ho AK, Iansek R, Marigliani C, Bradshaw JL, Portas S (1998) comprometimento de fala em uma grande amostra de pacientes com doença de Parkinson.
Behavioural Neurologia 11: 131-137. doi: 10.1155/1999/327643
Ver artigo PubMed / NCBI Google Scholar

6. Hartelius L, P Svensson (1994) fala e deglutição sintomas associados à doença de Parkinson e esclerose múltipla: uma pesquisa. Folia Phoniatr logop 46: 9-
17. doi: 10.1159/000266286
Ver artigo PubMed / NCBI Google Scholar

7. Holmes RJ, Oates JM, Phyland DJ, Hughes AJ (2000) as características da voz na progressão da doença de Parkinson. Jornal Internacional de Linguagem e
Comunicação Transtornos 35: 407-418. doi: 10.1080/136828200410654
Ver artigo PubMed / NCBI Google Scholar

8. Sewall GK, Jiang J, Ford CN (2006) Avaliação clínica de disfonia relacionada com Parkinson. Laringoscópio 116: 1740-1744. doi:
10.1097/01.mlg.0000232537.58310.22
Ver artigo PubMed / NCBI Google Scholar

9. Tsanas A, Little MA, McSharry PE, Ramig LO (2010) telemonitoring precisa de progressão da doença de Parkinson usando testes de fala não-invasivos. IEEE
Transactions on Engenharia Biomédica 57: 884-893. doi: 10.1109/tbme.2009.2036000
Ver artigo PubMed / NCBI Google Scholar

10. Pouco MA, McSharry PE, Hunter EJ, Spielmanm J, Ramig LO (2009) Adequação das medidas para disfonia telemonitoring de doença de Parkinson. IEEE
Transactions on Engenharia Biomédica 56: 1015-1022. doi: 10.1109/tbme.2008.2005954
Ver artigo PubMed / NCBI Google Scholar

11. Alonso JB, de Leon J, Alonso I, Ferrer MA (2001) Detecção automática de patologias na voz por parâmetros baseados HOS. EURASIP Jornal sobre Avanços
em Processamento de Sinais 2001: 710.108 doi:. 10.1155/s1110865701000336
Ver artigo PubMed / NCBI Google Scholar

12. Godino-Llorente J, Gomez-Vilda P (2004) Detecção automática de perda de voz por meio de parâmetros cepstral de curto prazo e detectores baseados em
rede neural. IEEE Transactions on Engenharia Biomédica 51: 380-384. doi: 10.1109/tbme.2003.820386
Ver artigo PubMed / NCBI Google Scholar

13. Pouco MA, McSharry PE, Roberts SJ, Costello DAE, Moroz IM (2007) Explorando a recorrência não-linear e as propriedades de escala do fractal para
detecção de distúrbio de voz. Engenharia Biomédica online 6: 23 doi:. 10.1186/1475-925x-6-23
Ver artigo PubMed / NCBI Google Scholar

14. Zwirner P, Barnes GJ (1992) estabilidade do trato vocal: uma medida de fonação e controle do motor superior das vias aéreas durante a fonação em disartria.
Journal of Speech and Hearing Research 35: 761-768.
Ver artigo PubMed / NCBI Google Scholar

15. Hertrich I, Ackermann H (1995), segundo o sexo disfunções vocais na doença de Parkinson: análises electroglottographic e acústico. Anais de Otologia,
Rinologia, Laringologia e 104: 197-202.
Ver artigo PubMed / NCBI Google Scholar

16. Goberman A, Coelho C, Robb M (2002) características fonatórias do discurso de Parkinson antes e após a medicação da manhã: os estados ligado e
desligado. Revista de Distúrbios da Comunicação 35: 217-239. doi: 10.1016/s0021-9924 (01) 00072-7

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 8/9
21/6/2014 PLoS ONE: Detecção Disfonia eficaz Usando Redução Dimensão Característica e Kernel Estimation Density para Pacientes com Doença de Parkinson
Ver artigo PubMed / NCBI Google Scholar
17. Goberman AM, Blomgren M (2003) disfluências da fala Parkinson: efeitos da L-dopa relacionados com
flutuações. Revista de Distúrbios da Fluência 28: 55-70. doi: 10.1016/s0094-730x (03) 00005-6
Ver artigo PubMed / NCBI Google Scholar

18. Cnockaert L, Schoentgen J, Auzou P, Ozsancak C, Defebvre L, et al. (2008) de baixa frequência modulações vocais de vogais produzidas por sujeitos
parkinsonianos. Speech Communication 50: 288-300. doi: 10.1016/j.specom.2007.10.003
Ver artigo PubMed / NCBI Google Scholar

19. Rahn DA, Chou M, Jiang JJ, Zhang Y (2007) impairment fonatória na doença de Parkinson: evidência de análise dinâmica não-linear e análise de perturbação.
Jornal de Voz 21: 64-71. doi: 10.1016/j.jvoice.2005.08.011
Ver artigo PubMed / NCBI Google Scholar

20. Bache K, Lichman M (2013). UCI repositório aprendizagem de máquina. Disponível: http://archive.ics.uci.edu/ml . Acessado em 2013 Dez 30.

21. Hoehn MM, Yahr MD (1967) Parkinsonismo: início, a progressão e mortalidade. Neurology 17: 427-442. doi: 10.1212/wnl.17.5.427
Ver artigo PubMed / NCBI Google Scholar

22. Guyon I, Elisseeff A (2003) Uma introdução à seleção de variáveis ​


e funcionalidade. Journal of Machine Learning Research 3: 1157-1182.
Ver artigo PubMed / NCBI Google Scholar

23. Duda RO, Hart PE, Stork DG (2001) Padrão de Classificação. Nova Iorque, Nova Iorque: Wiley, 2a edição.

24. Scholkopf B, Smola A, Muller KR (1998) a análise de componentes não-linear como um problema de valor próprio kernel. Computação Neural 10: 1299-1319.
doi: 10.1162/089976698300017467
Ver artigo PubMed / NCBI Google Scholar

25. Parzen E (1962) sobre a estimativa de uma função de densidade de probabilidade e modo. Anais de Estatística Matemática 33: 1065-1076. doi:
10.1214/aoms/1177704472
Ver artigo PubMed / NCBI Google Scholar

26. Jain AK, Duin RPW, Mao JC (2000) Estatística de reconhecimento de padrões: uma revisão. IEEE Transactions on Pattern Analysis and Machine Intelligence
22: 4-37. doi: 10.1109/34.824819
Ver artigo PubMed / NCBI Google Scholar

27. Vapnik VN (1998) Aprendizagem Estatística Theory. New York, NY: Wiley.

28. Wu Y, S Krishnan (2010) A análise estatística do ritmo da marcha em pacientes com doença de Parkinson. IEEE Transactions on Sistemas Neurais e
Engenharia de Reabilitação 18: 150-158. doi: 10.1109/tnsre.2009.2033062
Ver artigo PubMed / NCBI Google Scholar

29. Wu Y, Shi L (2011) Análise de ritmo alteração da marcha na esclerose lateral amiotrófica com base na função de estimativa de densidade de probabilidade
não paramétrico. Engenharia Médica e Física 33: 347-355. doi: 10.1016/j.medengphy.2010.10.023
Ver artigo PubMed / NCBI Google Scholar

30. Wu Y, Cai S, S Yang, Zheng F, Xiang N (2013) Classificação de joelho sinais de vibração conjunta bivariada usando estimativa de distribuição de recursos e
máxima probabilidade critério de decisão posterior. Entropia 15: 1375-1387. doi: 10.3390/e15041375
Ver artigo PubMed / NCBI Google Scholar

31. Sakar CO, Kursun ó (2010) Telediagnose da doença de Parkinson, utilizando medições de disfonia. Journal of Medical Systems 34: 591-599. doi:
10.1007/s10916-009-9272-y
Ver artigo PubMed / NCBI Google Scholar

http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0088825#pone-0088825-g001 9/9

You might also like