Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases.

Página inicial
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
→
Doutorado em Ciência da Computação.
→
Ver item

dc.creator.ID	MARINUS, J. V. M. L.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/9632762751005388	pt_BR
dc.contributor.advisor1	ARAÚJO, Joseana Macêdo Fechine Régis de.
dc.contributor.advisor2	GOMES, Herman Martins.
dc.contributor.advisor2ID	GOMES, H. M.	pt_BR
dc.contributor.advisor2Lattes	http://lattes.cnpq.br/4223020694433271	pt_BR
dc.contributor.referee1	MARINHO, Leandro Balby.
dc.contributor.referee2	BATISTA, Leonardo Vidal.
dc.contributor.referee3	ASSIS, Francisco Marcos de.
dc.contributor.referee4	BERNARDINO JUNIOR, Francisco Madeiro.
dc.description.resumo	Nos últimos anos, várias pesquisas na área de Processamento Digital da Voz vêm sendo realizadas com o objetivo de avaliar a qualidade da voz do paciente e auxiliar um especialista no diagnóstico de patologias nas pregas vocais. A análise acústica da voz pode ser uma ferramenta eficiente para o diagnóstico de patologias e possui como vantagem o fato de não ser invasiva. Neste contexto, esta tese teve como objetivo principal a investigação e a criação de métodos para a classificação de vozes afetadas por patologias nas pregas vocais. Para tanto, objetivou-se verificar a utilização da análise não linear do sinal de voz para caracterizar patologias das pregas vocais, a partir de imagens obtidas de técnicas da Teoria do Caos. Para este fim, foram estudadas 5 classes de patologias das pregas vocais: Paralisia, Edema, Nódulo, Pólipo e Queratose. Adicionalmente, foi estudada uma classe denominada Lesão Benigna nas pregas vocais, consistindo no agrupamento de sinais de voz afetada por nódulo, pólipo e cisto. Na pesquisa, foram utilizadas duas bases de dados: Massachusetts Eye and Ear Infirmary (MEEI) e Saarbruecken Voice Database (SVD). A etapa de pré-processamento consistiu no aumento da quantidade de sinais utilizando o método de Time Stretching, a segmentação e o janelamento dos sinais. Na fase de extração de características, foram obtidas imagens de cada segmento do sinal a partir das trajetórias do espaço de fase reconstruído do sinal. As imagens foram utilizadas para treinar duas Redes Neurais Convolucionais (Convolutional Neural Network - CNN), uma com e outra sem uma camada bottleneck. A partir da camada bottleneck, foram obtidos vetores de características, que foram usados para treinar uma máquina de Vetores de Suporte (Support Vector Machine - SVM). Os resultados da SVM foram comparados com os resultados da CNN sem a camada bottleneck. Foram realizadas 14 classificações: Normal versus Patologia; 10 classificações pareadas entre as 5 classes de patologias; e 3 classificações entre as classes Paralisia, Edema e Queratose versus Lesão Benigna. A classificação Normal versus Patologia proporcionou 100% de acerto, tanto para CNN quanto para SVM. A classificação nódulo versus pólipo proporcionou acurácias acima de 90%, e as outras classificações proporcionaram resultados entre 70 e 90%. Foi observado que, de uma forma geral, classificações utilizando aumento de dados no conjunto de treinamento tiveram resultados melhores que classificações sem a utilização de tal aumento, exceto em classificações envolvendo a classe pólipo. Na maioria dos casos, a utilização de tamanho de segmentos de 10 ciclos de pitch, para a formação das imagens, proporcionou melhores resultados que o tamanho clássico de 20 ms. No geral, a classificação utilizando bottleneck e SVM proporcionou resultados superiores àqueles utilizando apenas CNN. A abordagem proposta se mostrou promissora para a área de reconhecimento de patologias nas pregas vocais pela voz, uma vez que proporcionou bons resultados ao classificar diferentes tipos de patologia, que é uma tarefa árdua devido ao caráter ruidoso do sinal de voz afetado por patologia.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.title	Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases.	pt_BR
dc.date.issued	2019-09-05
dc.description.abstract	In recent years, several researches in the Digital Voice Processing area have been carried out with the objective of assessing the quality of the patient's voice and assisting a specialist in the diagnosis of pathologies in the vocal folds. The acoustic analysis of the voice can be an efficient tool for the diagnosis of pathologies and has the advantage of not being invasive. In this context, this thesis had as main objective the investigation and the creation of methods for the classification of voices affected by pathologies in the vocal folds. Therefore, the objective was to verify the use of non-linear analysis of the voice signal to characterize vocal fold pathologies, based on images obtained from Chaos Theory techniques. For this purpose, 5 classes of vocal fold pathologies were studied: Paralysis, Edema, Nodule, Polyp and Keratosis. Additionally, it was studied a class called Benign Injury in the vocal folds, consisting of the grouping of voice signals affected by nodule, polyp and cyst. In the research, two databases were used: Massachusetts Eye and Ear Infirmary (MEEI) and Saarbruecken Voice Database (SVD). The pre-processing step consisted of increasing the number of signals using the Time Stretching method, segmenting and winding the signals. In the feature extraction phase, images of each signal segment were obtained from the trajectories of the reconstructed phase space of the signal. The images were used to train two Convolutional Neural Network (CNN), one with and one without a bottleneck layer. From the bottleneck layer, feature vectors were obtained, which were used to train a Support Vector Machine (SVM). The SVM results were compared to the CNN results without the bottleneck layer. 14 classifications were performed: Normal versus Pathology; 10 paired classifications among the 5 classes of pathologies; and 3 classifications between the classes Paralysis, Edema and Keratosis versus Benign Injury. The Normal versus Pathology classification provided 100% correctness, for both CNN and SVM. The nodule versus polyp classification provided accuracy above 90%, and the other classifications provided results between 70 and 90%. It was observed that, in general, classifications using data increase in the training set had better results than classifications without using such an increase, except in classifications involving the polyp class. In most cases, the use of segment sizes of 10 pitch cycles, for the formation of images, provided better results than the classic size of 20 ms. In general, the classification using bottleneck and SVM provided results superior to those using only CNN. The proposed approach proved to be promising for the area of recognition of pathologies in the vocal folds by voice, since it provided good results when classifying different types of pathology, which is a arduous task due to the loud character of the voice signal affected by pathology.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705
dc.date.accessioned	2020-04-07T17:04:48Z
dc.date.available	2020-04-07
dc.date.available	2020-04-07T17:04:48Z
dc.type	Tese	pt_BR
dc.subject	Sinais de voz	pt_BR
dc.subject	Voice signals	pt_BR
dc.subject	Señales de voz	pt_BR
dc.subject	Processamento digital	pt_BR
dc.subject	Procesamiento digital	pt_BR
dc.subject	Digital processing	pt_BR
dc.subject	Classificação de vozes	pt_BR
dc.subject	Voice Classification	pt_BR
dc.subject	Clasificación de voz	pt_BR
dc.subject	Patologias	pt_BR
dc.subject	Pathologies	pt_BR
dc.subject	Bases de dados	pt_BR
dc.subject	Data base	pt_BR
dc.subject	Bases de datos	pt_BR
dc.subject	Disturbios da voz	pt_BR
dc.subject	Trastornos de la voz	pt_BR
dc.subject	Voice disorders	pt_BR
dc.subject	Reconstrução do espaço de fase	pt_BR
dc.subject	Reconstruction of the phase space	pt_BR
dc.subject	Reconstrucción del espacio de fase	pt_BR
dc.subject	Redes neurais convolucionais	pt_BR
dc.subject	Redes neuronales convolucionales	pt_BR
dc.subject	Convolutional neural networks	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	MARINUS, João Vilian de Moraes Lima.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Classification of voice signals affected by vocal fold pathology using phase space reconstruction.	pt_BR
dc.identifier.citation	MARINUS, J. V. de M. L. Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases. 2019. 136 f. Tese (Doutorado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2019. disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705	pt_BR