Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/10992
Title: Um modelo para geração de prosódia de palavras em conversores texto-fala para a língua portuguesa falada no Brasil.
Other Titles: A model for word prosody generation in text-to-speech converters for the Portuguese language spoken in Brazil.
???metadata.dc.creator???: COSTA NETO, Manuel Leonel da.
???metadata.dc.contributor.advisor1???: AGUIAR NETO, Benedito Guimarães.
BEZERRA, Maria Auxiliadora.
???metadata.dc.contributor.referee1???: SANTOS, Sidney Cerqueira Bispo dos.
???metadata.dc.contributor.referee2???: SEARA, Rui.
???metadata.dc.contributor.referee3???: DÓRIA NETO, Adrião Duarte.
???metadata.dc.contributor.referee4???: GOMES, Herman Martins.
???metadata.dc.contributor.referee5???: ASSIS, Francisco Marcos de.
Issue Date: 30-Apr-2004
Publisher: Universidade Federal de Campina Grande
Citation: COSTA NETO, Manuel Leonel da. Um modelo para geração de prosódia de palavras em conversores texto-fala para a língua portuguesa falada no Brasil. 192f. (Tese de Doutorado em Engenharia Elétrica), Programa de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática , Universidade Federal de Campina Grande – Paraíba Brasil, 2004.
???metadata.dc.description.resumo???: Este trabalho apresenta um modelo para geração automática da prosódia em um sistema texto-fala concatenativo para o Português Brasileiro. O modelo e baseado em regras e na tonicidade de palavras para determinar os contornos de entonação. Para tal, e realizada uma analise acústica em um corpus de palavras, contendo as mais di- versas combinações de fonemas para as silabas, e de frases foneticamente balanceadas. para identificação do comportamento da duração e sobretudo do pitch, ao longo de palavras oxítonas, paroxítonas e proparoxítonas com ate cinco silabas. Na primeira etapa do trabalho e apresentada a estrutura básica de um sistema texto-fala e destacada a importância de um modelo de prosódia para um sistema desse tipo. Na segunda etapa e apresentada a forma natural de produção da fala e concertos importantes de linguística. Na terceira etapa são apresentados os estágios de processamento linguístico, processamento prosódico e processamento do sinal em um sistema texto-fala. Optou-se por um processamento linguístico mais simples, contemplando os estágios de pré processamento e transcrição fonética. Também optou-se pela síntese concatenativa, considerando-se as vantagens de simplicidade, flexibilidade e sobretudo porque o processamento do sinal de fala e feito na própria forma de onda, mantendo-se assim as características originais desse sinal. Na quarta etapa são apresentados o dicionário de unidades acústicas e o modelo prosódico com os resultados obtidos. São utilizadas silabas e demissílabas como unidades acústicas do dicionário. A base de dados de unidades acústicas, relativamente elevada, incorpora informações prosódicas das mais relevantes, bem como das características articulatórias correspondentes aos fenômenos de coarticulação, para a obtenção de uma fala sintetizada de qualidade. A seleção das unidades e realizada através de uma estrutura de pesos atribuídos as silabas tônicas, pretônicas e postônicas, considerando as curvas de entonação analisadas no corpus. O modelo foi avaliado através de testes informais de escuta em palavras e testes formais em um corpus de 20 frases foneticamente balanceadas, que constituem uma amostra representativa do universo de todos os fonemas e unidades do dicionário. Os testes com 20 frases foi realizado com 40 ouvintes e usando-se a escala MOS (Mean Opinion Score), obtendo-se um escore de 4,25, superior ao escore bom (4,0). A partir dos resultados obtidos, conclui-se que o modelo proposto pode ser aplicado a um sistema de síntese concatenativa com bons resultados, para palavras ou frases declarativas. Sugere-se que, em trabalhos futuros, o modelo possa ser ampliado para outros contornos de entonação como, por exemplo, contornos para frases interrogativas e exclamativas.
Abstract: This work presents a model for automatic generation of the prosody in a concatenative text-to-speech system for Brazilian Portuguese. The model is based on rules and on stressed syllables i n the words, to determine the intonation contours. For such, an acoustic analysis is accomplished in a corpus of words, containing the most several combinations of phonemes for the syllables, and phonetically balanced sentences, for identification of the behavior of the duration and above all the pitch, along oxytons, paroxytons and proparoxytons words, with up to five syllables. In the first stage of the work, a basic structure of a text-to-speech system is presented and the importance of a prosody model for that kind of system is emphasized. The second stage presents the natural form of speech production and important concepts of linguistics. The t h i rd stage presents the linguistic processing, the prosodic processing and the signal processing levels i n a text-to-speech system. A simpler linguistic processing was opted, contemplating the pre-processing and phonetic transcription levels. The concatenative synthesis was also opted, considered the advantages of simplicity, flexibility and, above all, because the processing of the speech signal is made in the own wave form, maintaining the original characteristics of the signal. The fourth stage presents the acoustic units dictionary and the prosodic model with the obtained results. Syllables and demissylables are used as acoustic units of the dictionary. The relatively large, database of acoustic units, incorporates the most important prosodic information, as well as the articulatory characteristics corresponding to the coarticulation phenomena, in order to obtain a good synthesized speech. The selection of the units is accomplished through a structure of weights attributed to the stressed, pre-stressed and post-stressed syllables, considering the curves of intonation analyzed in the corpus. The model was evaluated through informal listening tests i n words and formal tests i n a corpus of 20 phonetically balanced sentences, wich constitute a representative sample of the universe of all the phonemes and units of the dictionary. The tests with 20 sentences were accomplished with 40 listeners and using the MOS scale (Mean Opinion Score), obtaining a score of
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/10992
Appears in Collections:Doutorado em Engenharia Elétrica.

Files in This Item:
File Description SizeFormat 
MANUEL LEONEL DA COSTA NETO - TESE PPGEE 2004.pdfManuel Leonel da Costa Neto - TESE PPGEE 20048.05 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.