Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/9016

Title:	Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística.
Other Titles:	Automatic recognition of vocal identity using hybrid modeling: parametric and statistical.
???metadata.dc.creator???:	FECHINE, Joseana Macêdo.
???metadata.dc.contributor.advisor1???:	AGUIAR NETO, Benedito Guimarães.
???metadata.dc.contributor.referee1???:	BRASILEIRO, Marcos Antônio Gonçalves.
???metadata.dc.contributor.referee2???:	ALENCAR, Marcelo Sampaio de.
???metadata.dc.contributor.referee3???:	ALCAIM, Abraham.
???metadata.dc.contributor.referee4???:	DORIA NETO, Adrião Duarte.
Keywords:	Modelagem Híbrida;Reconhecimento Automático de Identidade Vocal;Quantização Vetorial;Interação Homem-Máquina;Resposta Vocal;Reconhecimento de Fala;Reconhecimento de Locutor;Paramétrica e Estatística;Hybrid Modeling;Automatic Vocal Identity Recognition;Vector Quantization;Human-Machine Interaction;Vocal Response;Speech Recognition;Speaker Recognition;Parametric and Statistics
Issue Date:	22-Dec-2000
Publisher:	Universidade Federal de Campina Grande
Citation:	FECHINE, Joseana Macêdo. Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. 2000. 235f. (Tese) Doutorado em Engenharia Elétrica, Curso de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal da Paraíba – Campus II - Campina Grande - Paraíba - Brasil, 2000.
???metadata.dc.description.resumo???:	Este trabalho trata da aplicação de uma técnica híbrida (paramétrica e estatística), que utiliza Analise por Predição Linear, Quantização Vetorial, Redes Neurais e Modelos de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento (identificação) automático da identidade vocal, visando obter alternativas para os algoritmos tradicionais. Com o objetivo de se obter um sistema mais rápido e robusto, e realizada uma etapa de pre-identificação, seguida da identificação. A primeira etapa utiliza a frequência fundamental (F0) como parâmetro de separação previa dos locutores em grupos gerais, de acordo com o sexo. O método proposto para estimação da FQ se mostra eficiente (99% de classificação correta), fornecendo estimativas representativas de cada locutor, reduzindo assim o numero de locutores a participar da etapa posterior. A etapa de identificação utiliza Modelos de Markov Escondidos (HMMs) de Densidades Discretas e Quantização Vetorial Paramétrica, com parâmetros acústicos obtidos a partir da Analise por Predição Linear (coeficientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coeficientes Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identificação. Em se tratando do projeto do dicionário do quantizador vetorial, são avaliados três algoritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modificado com Vizinhanga Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espaço Sináptico). O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicionarios, levando a maiores taxas de identificação. A modelagem por HMMs se constitui em uma etapa de "refinamento" do processo de identificação, sendo utilizada quando as medidas de distorção obtidas pela comparação do padrão de teste do locutor a ser identificado (vetor de características acústicas) com os padrões de referenda (dicionários do quantizador vetorial) indicarem "similaridade" entre os padrões vocais. A técnica aplicada neste trabalho proporciona a obtenção de um sistema de reconhecimento automático da identidade vocal que apresenta taxa media de identificação elevada (97,8%) e significativa, baixas taxas medias de falsa aceitação (0,8%) e de falsa rejeição (1,5%), bem como alta confiabilidade (99,2%). O sistema de identificação de locutor desenvolvido e, portanto, capaz de discriminar, de forma eficiente, os locutores a partir das suas características vocais apresentando, independentemente do sexo do locutor, pequenas variações intralocutor e grandes variações interlocutor.
Abstract:	This work deals with the application of a hybrid technique (parametric and statistical), which uses Linear Prediction Analysis, Vector Quantization, Neural Networks and Hidden Markov Models, to develop an automatic vocal identity recognition (identification) system, aiming at get alternatives to traditional algorithms. In order to achieve a faster and more robust system, and a pre-identification step is performed, followed by identification. The first step uses the fundamental frequency (F0) as the previous speaker separation parameter in general groups according to gender. The proposed method for estimating CF is efficient (99% correct classification), providing representative estimates of each speaker, thus reducing the number of speakers to participate in the later stage. The identification step uses Hidden Markov Models (HMMs) of Discrete Densities and Parametric Vector Quantization, with acoustic parameters obtained from Linear Prediction Analysis (LPC, Cepestral Weighted, Cepestral Delta and Weighted Cepestral Delta coefficients). Cepestral coefficients, followed by Cepestral Delta, provide higher identification rates. In terms of the vector quantizer dictionary design, three algorithms are evaluated: LBG (Linde-Buzo-Gray), KMVVT (Modified Kohonen with Neighborhood Centered Around Training Vector) and SSC (Competitive in Synaptic Space). The SSC algorithm is the most suitable for the dictionary design, leading to higher identification rates. Modeling by HMMs constitutes a "refinement" step of the identification process, being used when the distortion measurements obtained by comparing the speaker test pattern to be identified (acoustic characteristics vector) with the reference standards (dictionaries quantifier) indicate "similarity" between vocal patterns. The technique applied in this work provides an automatic voice identity recognition system that has a high (97.8%) and significant average identification rate, low average rates of false acceptance (0.8%) and false rejection ( 1.5%) as well as high reliability (99.2%). The speaker identification system developed and, therefore, capable of efficiently discriminating the speakers from their vocal characteristics presenting, regardless of the speaker's gender, small intralocutor variations and large interlocutor variations.
Keywords:	Modelagem Híbrida Reconhecimento Automático de Identidade Vocal Quantização Vetorial Interação Homem-Máquina Resposta Vocal Reconhecimento de Fala Reconhecimento de Locutor Paramétrica e Estatística Hybrid Modeling Automatic Vocal Identity Recognition Vector Quantization Human-Machine Interaction Vocal Response Speech Recognition Speaker Recognition Parametric and Statistics
???metadata.dc.subject.cnpq???:	Engenharia Elétrica
URI:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/9016
Appears in Collections:	Doutorado em Engenharia Elétrica.

Files in This Item:

File	Description	Size	Format
JOSEANA MACÊDO FECHINE - TESE PPGEE 2000.pdf	Joseana Macêdo Fechine - Dissertação PPGEE 2000	11.3 MB	Adobe PDF	View/Open

Show full item record