Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705
Title: Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases.
Other Titles: Classification of voice signals affected by vocal fold pathology using phase space reconstruction.
???metadata.dc.creator???: MARINUS, João Vilian de Moraes Lima.
???metadata.dc.contributor.advisor1???: ARAÚJO, Joseana Macêdo Fechine Régis de.
???metadata.dc.contributor.advisor2???: GOMES, Herman Martins.
???metadata.dc.contributor.referee1???: MARINHO, Leandro Balby.
???metadata.dc.contributor.referee2???: BATISTA, Leonardo Vidal.
???metadata.dc.contributor.referee3???: ASSIS, Francisco Marcos de.
???metadata.dc.contributor.referee4???: BERNARDINO JUNIOR, Francisco Madeiro.
Keywords: Sinais de voz;Voice signals;Señales de voz;Processamento digital;Procesamiento digital;Digital processing;Classificação de vozes;Voice Classification;Clasificación de voz;Patologias;Pathologies;Bases de dados;Data base;Bases de datos;Disturbios da voz;Trastornos de la voz;Voice disorders;Reconstrução do espaço de fase;Reconstruction of the phase space;Reconstrucción del espacio de fase;Redes neurais convolucionais;Redes neuronales convolucionales;Convolutional neural networks
Issue Date: 5-Sep-2019
Publisher: Universidade Federal de Campina Grande
Citation: MARINUS, J. V. de M. L. Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases. 2019. 136 f. Tese (Doutorado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2019. disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705
???metadata.dc.description.resumo???: Nos últimos anos, várias pesquisas na área de Processamento Digital da Voz vêm sendo realizadas com o objetivo de avaliar a qualidade da voz do paciente e auxiliar um especialista no diagnóstico de patologias nas pregas vocais. A análise acústica da voz pode ser uma ferramenta eficiente para o diagnóstico de patologias e possui como vantagem o fato de não ser invasiva. Neste contexto, esta tese teve como objetivo principal a investigação e a criação de métodos para a classificação de vozes afetadas por patologias nas pregas vocais. Para tanto, objetivou-se verificar a utilização da análise não linear do sinal de voz para caracterizar patologias das pregas vocais, a partir de imagens obtidas de técnicas da Teoria do Caos. Para este fim, foram estudadas 5 classes de patologias das pregas vocais: Paralisia, Edema, Nódulo, Pólipo e Queratose. Adicionalmente, foi estudada uma classe denominada Lesão Benigna nas pregas vocais, consistindo no agrupamento de sinais de voz afetada por nódulo, pólipo e cisto. Na pesquisa, foram utilizadas duas bases de dados: Massachusetts Eye and Ear Infirmary (MEEI) e Saarbruecken Voice Database (SVD). A etapa de pré-processamento consistiu no aumento da quantidade de sinais utilizando o método de Time Stretching, a segmentação e o janelamento dos sinais. Na fase de extração de características, foram obtidas imagens de cada segmento do sinal a partir das trajetórias do espaço de fase reconstruído do sinal. As imagens foram utilizadas para treinar duas Redes Neurais Convolucionais (Convolutional Neural Network - CNN), uma com e outra sem uma camada bottleneck. A partir da camada bottleneck, foram obtidos vetores de características, que foram usados para treinar uma máquina de Vetores de Suporte (Support Vector Machine - SVM). Os resultados da SVM foram comparados com os resultados da CNN sem a camada bottleneck. Foram realizadas 14 classificações: Normal versus Patologia; 10 classificações pareadas entre as 5 classes de patologias; e 3 classificações entre as classes Paralisia, Edema e Queratose versus Lesão Benigna. A classificação Normal versus Patologia proporcionou 100% de acerto, tanto para CNN quanto para SVM. A classificação nódulo versus pólipo proporcionou acurácias acima de 90%, e as outras classificações proporcionaram resultados entre 70 e 90%. Foi observado que, de uma forma geral, classificações utilizando aumento de dados no conjunto de treinamento tiveram resultados melhores que classificações sem a utilização de tal aumento, exceto em classificações envolvendo a classe pólipo. Na maioria dos casos, a utilização de tamanho de segmentos de 10 ciclos de pitch, para a formação das imagens, proporcionou melhores resultados que o tamanho clássico de 20 ms. No geral, a classificação utilizando bottleneck e SVM proporcionou resultados superiores àqueles utilizando apenas CNN. A abordagem proposta se mostrou promissora para a área de reconhecimento de patologias nas pregas vocais pela voz, uma vez que proporcionou bons resultados ao classificar diferentes tipos de patologia, que é uma tarefa árdua devido ao caráter ruidoso do sinal de voz afetado por patologia.
Abstract: In recent years, several researches in the Digital Voice Processing area have been carried out with the objective of assessing the quality of the patient's voice and assisting a specialist in the diagnosis of pathologies in the vocal folds. The acoustic analysis of the voice can be an efficient tool for the diagnosis of pathologies and has the advantage of not being invasive. In this context, this thesis had as main objective the investigation and the creation of methods for the classification of voices affected by pathologies in the vocal folds. Therefore, the objective was to verify the use of non-linear analysis of the voice signal to characterize vocal fold pathologies, based on images obtained from Chaos Theory techniques. For this purpose, 5 classes of vocal fold pathologies were studied: Paralysis, Edema, Nodule, Polyp and Keratosis. Additionally, it was studied a class called Benign Injury in the vocal folds, consisting of the grouping of voice signals affected by nodule, polyp and cyst. In the research, two databases were used: Massachusetts Eye and Ear Infirmary (MEEI) and Saarbruecken Voice Database (SVD). The pre-processing step consisted of increasing the number of signals using the Time Stretching method, segmenting and winding the signals. In the feature extraction phase, images of each signal segment were obtained from the trajectories of the reconstructed phase space of the signal. The images were used to train two Convolutional Neural Network (CNN), one with and one without a bottleneck layer. From the bottleneck layer, feature vectors were obtained, which were used to train a Support Vector Machine (SVM). The SVM results were compared to the CNN results without the bottleneck layer. 14 classifications were performed: Normal versus Pathology; 10 paired classifications among the 5 classes of pathologies; and 3 classifications between the classes Paralysis, Edema and Keratosis versus Benign Injury. The Normal versus Pathology classification provided 100% correctness, for both CNN and SVM. The nodule versus polyp classification provided accuracy above 90%, and the other classifications provided results between 70 and 90%. It was observed that, in general, classifications using data increase in the training set had better results than classifications without using such an increase, except in classifications involving the polyp class. In most cases, the use of segment sizes of 10 pitch cycles, for the formation of images, provided better results than the classic size of 20 ms. In general, the classification using bottleneck and SVM provided results superior to those using only CNN. The proposed approach proved to be promising for the area of ​​recognition of pathologies in the vocal folds by voice, since it provided good results when classifying different types of pathology, which is a arduous task due to the loud character of the voice signal affected by pathology.
Keywords: Sinais de voz
Voice signals
Señales de voz
Processamento digital
Procesamiento digital
Digital processing
Classificação de vozes
Voice Classification
Clasificación de voz
Patologias
Pathologies
Bases de dados
Data base
Bases de datos
Disturbios da voz
Trastornos de la voz
Voice disorders
Reconstrução do espaço de fase
Reconstruction of the phase space
Reconstrucción del espacio de fase
Redes neurais convolucionais
Redes neuronales convolucionales
Convolutional neural networks
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705
Appears in Collections:Doutorado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
JOÃO VILIAN DE MORAES LIMA MARINUS - TESE (PPGCC) 2019.pdfJoão Vilian de Moraes Lima Martins - Tese (PPGCC) 2019.1.39 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.