DSpace/Manakin Repository

Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases.

Mostrar registro simples

dc.creator.ID MARINUS, J. V. M. L. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/9632762751005388 pt_BR
dc.contributor.advisor1 ARAÚJO, Joseana Macêdo Fechine Régis de.
dc.contributor.advisor2 GOMES, Herman Martins.
dc.contributor.advisor2ID GOMES, H. M. pt_BR
dc.contributor.advisor2Lattes http://lattes.cnpq.br/4223020694433271 pt_BR
dc.contributor.referee1 MARINHO, Leandro Balby.
dc.contributor.referee2 BATISTA, Leonardo Vidal.
dc.contributor.referee3 ASSIS, Francisco Marcos de.
dc.contributor.referee4 BERNARDINO JUNIOR, Francisco Madeiro.
dc.description.resumo Nos últimos anos, várias pesquisas na área de Processamento Digital da Voz vêm sendo realizadas com o objetivo de avaliar a qualidade da voz do paciente e auxiliar um especialista no diagnóstico de patologias nas pregas vocais. A análise acústica da voz pode ser uma ferramenta eficiente para o diagnóstico de patologias e possui como vantagem o fato de não ser invasiva. Neste contexto, esta tese teve como objetivo principal a investigação e a criação de métodos para a classificação de vozes afetadas por patologias nas pregas vocais. Para tanto, objetivou-se verificar a utilização da análise não linear do sinal de voz para caracterizar patologias das pregas vocais, a partir de imagens obtidas de técnicas da Teoria do Caos. Para este fim, foram estudadas 5 classes de patologias das pregas vocais: Paralisia, Edema, Nódulo, Pólipo e Queratose. Adicionalmente, foi estudada uma classe denominada Lesão Benigna nas pregas vocais, consistindo no agrupamento de sinais de voz afetada por nódulo, pólipo e cisto. Na pesquisa, foram utilizadas duas bases de dados: Massachusetts Eye and Ear Infirmary (MEEI) e Saarbruecken Voice Database (SVD). A etapa de pré-processamento consistiu no aumento da quantidade de sinais utilizando o método de Time Stretching, a segmentação e o janelamento dos sinais. Na fase de extração de características, foram obtidas imagens de cada segmento do sinal a partir das trajetórias do espaço de fase reconstruído do sinal. As imagens foram utilizadas para treinar duas Redes Neurais Convolucionais (Convolutional Neural Network - CNN), uma com e outra sem uma camada bottleneck. A partir da camada bottleneck, foram obtidos vetores de características, que foram usados para treinar uma máquina de Vetores de Suporte (Support Vector Machine - SVM). Os resultados da SVM foram comparados com os resultados da CNN sem a camada bottleneck. Foram realizadas 14 classificações: Normal versus Patologia; 10 classificações pareadas entre as 5 classes de patologias; e 3 classificações entre as classes Paralisia, Edema e Queratose versus Lesão Benigna. A classificação Normal versus Patologia proporcionou 100% de acerto, tanto para CNN quanto para SVM. A classificação nódulo versus pólipo proporcionou acurácias acima de 90%, e as outras classificações proporcionaram resultados entre 70 e 90%. Foi observado que, de uma forma geral, classificações utilizando aumento de dados no conjunto de treinamento tiveram resultados melhores que classificações sem a utilização de tal aumento, exceto em classificações envolvendo a classe pólipo. Na maioria dos casos, a utilização de tamanho de segmentos de 10 ciclos de pitch, para a formação das imagens, proporcionou melhores resultados que o tamanho clássico de 20 ms. No geral, a classificação utilizando bottleneck e SVM proporcionou resultados superiores àqueles utilizando apenas CNN. A abordagem proposta se mostrou promissora para a área de reconhecimento de patologias nas pregas vocais pela voz, uma vez que proporcionou bons resultados ao classificar diferentes tipos de patologia, que é uma tarefa árdua devido ao caráter ruidoso do sinal de voz afetado por patologia. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.program PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases. pt_BR
dc.date.issued 2019-09-05
dc.description.abstract In recent years, several researches in the Digital Voice Processing area have been carried out with the objective of assessing the quality of the patient's voice and assisting a specialist in the diagnosis of pathologies in the vocal folds. The acoustic analysis of the voice can be an efficient tool for the diagnosis of pathologies and has the advantage of not being invasive. In this context, this thesis had as main objective the investigation and the creation of methods for the classification of voices affected by pathologies in the vocal folds. Therefore, the objective was to verify the use of non-linear analysis of the voice signal to characterize vocal fold pathologies, based on images obtained from Chaos Theory techniques. For this purpose, 5 classes of vocal fold pathologies were studied: Paralysis, Edema, Nodule, Polyp and Keratosis. Additionally, it was studied a class called Benign Injury in the vocal folds, consisting of the grouping of voice signals affected by nodule, polyp and cyst. In the research, two databases were used: Massachusetts Eye and Ear Infirmary (MEEI) and Saarbruecken Voice Database (SVD). The pre-processing step consisted of increasing the number of signals using the Time Stretching method, segmenting and winding the signals. In the feature extraction phase, images of each signal segment were obtained from the trajectories of the reconstructed phase space of the signal. The images were used to train two Convolutional Neural Network (CNN), one with and one without a bottleneck layer. From the bottleneck layer, feature vectors were obtained, which were used to train a Support Vector Machine (SVM). The SVM results were compared to the CNN results without the bottleneck layer. 14 classifications were performed: Normal versus Pathology; 10 paired classifications among the 5 classes of pathologies; and 3 classifications between the classes Paralysis, Edema and Keratosis versus Benign Injury. The Normal versus Pathology classification provided 100% correctness, for both CNN and SVM. The nodule versus polyp classification provided accuracy above 90%, and the other classifications provided results between 70 and 90%. It was observed that, in general, classifications using data increase in the training set had better results than classifications without using such an increase, except in classifications involving the polyp class. In most cases, the use of segment sizes of 10 pitch cycles, for the formation of images, provided better results than the classic size of 20 ms. In general, the classification using bottleneck and SVM provided results superior to those using only CNN. The proposed approach proved to be promising for the area of ​​recognition of pathologies in the vocal folds by voice, since it provided good results when classifying different types of pathology, which is a arduous task due to the loud character of the voice signal affected by pathology. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705
dc.date.accessioned 2020-04-07T17:04:48Z
dc.date.available 2020-04-07
dc.date.available 2020-04-07T17:04:48Z
dc.type Tese pt_BR
dc.subject Sinais de voz pt_BR
dc.subject Voice signals pt_BR
dc.subject Señales de voz pt_BR
dc.subject Processamento digital pt_BR
dc.subject Procesamiento digital pt_BR
dc.subject Digital processing pt_BR
dc.subject Classificação de vozes pt_BR
dc.subject Voice Classification pt_BR
dc.subject Clasificación de voz pt_BR
dc.subject Patologias pt_BR
dc.subject Pathologies pt_BR
dc.subject Bases de dados pt_BR
dc.subject Data base pt_BR
dc.subject Bases de datos pt_BR
dc.subject Disturbios da voz pt_BR
dc.subject Trastornos de la voz pt_BR
dc.subject Voice disorders pt_BR
dc.subject Reconstrução do espaço de fase pt_BR
dc.subject Reconstruction of the phase space pt_BR
dc.subject Reconstrucción del espacio de fase pt_BR
dc.subject Redes neurais convolucionais pt_BR
dc.subject Redes neuronales convolucionales pt_BR
dc.subject Convolutional neural networks pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator MARINUS, João Vilian de Moraes Lima.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Classification of voice signals affected by vocal fold pathology using phase space reconstruction. pt_BR
dc.identifier.citation MARINUS, J. V. de M. L. Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases. 2019. 136 f. Tese (Doutorado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2019. disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705 pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta