Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/41977
Full metadata record
DC FieldValueLanguage
dc.creator.IDAZEVEDO, G. A.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/7397197962569354pt_BR
dc.contributor.advisor1ARAÚJO, Joseana Macêdo Fechine Régis de.-
dc.contributor.advisor1IDFECHINE, J. M.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7179691582151907pt_BR
dc.contributor.referee1GOMES, Herman Martins.-
dc.contributor.referee2BATISTA, Leodardo Vidal.-
dc.contributor.referee3GURJÃO, Edmar Candeia.-
dc.description.resumoA voz é um dos meios mais importantes de comunicação do ser humano. Por meio da fala, pode-se transmitir facilmente uma mensagem. Como toda parte do corpo humano, o sistema fonatório pode ser acometido por doenças, que são comumente chamadas de patologias da voz, dentre as quais tem-se os distúrbios do trato vocal (também denominados distúrbios da voz), que incluem disfonia, laringite, pólipo e paralisia, foco da pesquisa. Em grande parte das vezes, o diagnóstico precoce é essencial para conter o agravamento da situação clínica do paciente. Entretanto, a tarefa de detectar e classificar esses distúrbios, por vezes é demorada e requer expertise do médico. Além disso, alguns dos exames são invasivos, gerando desconforto ao paciente. Diante do exposto e visando auxiliar o diagnóstico médico, acelerando-o e colaborando no embasamento necessário, a pesquisa ora descrita investiga o uso de redes neurais profundas para a classificação automática de sinais de voz, nas categorias saudável e patológica (ou com distúrbios), com o objetivo de distinguir entre disfonia, laringite, pólipo e paralisia, com adoção de técnicas não invasivas para aquisição de informações. Dados como espectrogramas mel, zero crossing rate (ZCR), root mean square energy (RMSE) e coeficientes MFCC foram utilizados como fontes de informação para redes pré-treinadas CNN e redes híbridas CNN-RNN LSTM. Técnicas para aumento de dados, como time stretch, time shifting e injeção de ruído branco (white noise) foram aplicadas nos dados extraídos da base utilizada (Saarbruecken Voice Database - SVD) para superar o problema de insuficiência de dados. Cada uma das abordagens propostas foi construída em duas versões, uma para vozes femininas e outra para vozes masculinas. O desempenho foi avaliado a partir das métricas acurácia, perda, precisão, sensibilidade (recall) e F1-score. As redes de classificação binária alcançaram taxas de acurácia de 99,33% (vozes masculinas) e 99,50% (vozes femininas) e as redes de multi classificação chegaram a apresentar acurácia de 96,40% (vozes femininas) e 89,20% (vozes masculinas), representando avanço importante e contribuição na área de detecção e classificação automática de distúrbios do trato vocal e potencial para uso clínico.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.programPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleAnálise acústica da fala para auxílio à detecção e à classificação de distúrbios da voz.pt_BR
dc.date.issued2025-02-03-
dc.description.abstractThe voice is one of the most important means of human communication. Through speech, a message can be easily transmitted. Like any part of the human body, the phonatory system can be affected by diseases, which are commonly called voice pathologies, among which are vocal tract disorders (also called voice disorders), which include dysphonia, laryngitis, polyps and paralysis, the focus of the research. In most cases, early diagnosis is essential to contain the worsening of the patient’s clinical condition. However, the task of detecting and classifying these disorders is sometimes timeconsuming and requires expertise from the doctor. In addition, some of the tests are invasive, causing discomfort to the patient. In view of the above and aiming to assist in medical diagnosis, accelerating it and collaborating in the necessary basis, the research described here investigates the use of deep neural networks for the automatic classification of voice signals, in the healthy and pathological (or disordered) categories, with the objective of distinguishing between dysphonia, laryngitis, polyps and paralysis, with the adoption of non-invasive techniques for acquiring information. Data such as mel spectrograms, zero crossing rate (ZCR), root mean square energy (RMSE) and MFCC coefficients were used as sources of information for pre-trained CNN networks and hybrid CNN-RNN LSTM networks. Techniques for data augmentation, such as time stretching, time shifting and white noise injection were applied to the extracted data of the database used (Saarbruecken Voice Database - SVD) to overcome the problem of insufficient data. Each of the proposed approaches was built in two versions, one for female voices and another for male voices, and their performance was evaluated using the metrics accuracy, loss, precision, sensitivity (recall) and F1-score. The performance was evaluated using the metrics accuracy, loss, precision, sensitivity recall and F1-score. The binary classification networks achieved accuracy rates of 99,33% (male voices) and 99,50% (female voices), and the multi-classification networks achieved accuracy rates of 96,40% (female voices) and 89,20% (male voices), representing an important advance and contribution in the area of automatic detection and classification of vocal tract disorders and potential for clinical use.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/41977-
dc.date.accessioned2025-05-16T12:59:01Z-
dc.date.available2025-05-16-
dc.date.available2025-05-16T12:59:01Z-
dc.typeDissertaçãopt_BR
dc.subjectAnalisador automático da condição da vozpt_BR
dc.subjectSaarbruecken Voice Database (SVD)pt_BR
dc.subjectRedes neurais profundaspt_BR
dc.subjectProcessamento de sinais de vozpt_BR
dc.subjectClassificaçãopt_BR
dc.subjectDetecçãopt_BR
dc.subjectDistúrbios da Vozpt_BR
dc.subjectAutomatic voice condition analyzerpt_BR
dc.subjectSaarbruecken Voice Database (SVD)pt_BR
dc.subjectDeep neural networkspt_BR
dc.subjectVoice signal processingpt_BR
dc.subjectClassificationpt_BR
dc.subjectDetectionpt_BR
dc.subjectVoice disorderpt_BR
dc.subjectVoz - processamento digital-
dc.rightsAcesso Abertopt_BR
dc.creatorAZEVEDO, Gabriel Almeida.-
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeAcoustic analysis of speech to aid in the detection and classification of voice disorders.pt_BR
dc.identifier.citationAZEVEDO, Gabriel Almeida. Análise acústica da fala para auxílio à detecção e à classificação de distúrbios da voz. 2025. 87 f. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2025.pt_BR
Appears in Collections:Mestrado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
GABRIEL ALMEIDA AZEVEDO - DISSERTAÇÃO - (PPGCC) 2025.pdf2.6 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.