Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/1314

Full metadata record

DC Field	Value	Language
dc.creator.ID	BISPO, M. C. T.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/3907917269744642	pt_BR
dc.contributor.advisor1	SCHIEL, Ulrich.	-
dc.contributor.advisor1ID	SCHIEL, U.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2971250918247087	pt_BR
dc.contributor.advisor2	PIRES, Carlos Eduardo Santos.	-
dc.contributor.advisor2ID	PIRES, C. E. S.	pt_BR
dc.contributor.advisor2Lattes	http://lattes.cnpq.br/4986021622366786	pt_BR
dc.contributor.referee1	MARINHO, Leandro Balby.	-
dc.contributor.referee2	FERNEDA, Edberto.	-
dc.description.resumo	A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de documentos e recuperação de informação desejada por um usuário. O presente trabalho se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de antemão o domínio do documento que contém termos ambíguos. Para determinar este domínio foram construídos vocabulários temáticos por meio da extração de termos de documentos de domínios de conhecimento pré-determinados, com o uso de regras sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia digital contendo as categorias definidas semelhantes à Classificação Decimal Universal (CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo essa característica fundamental para formação de um vocabulário específico do domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de novos documentos. Para validação dos VTD's, foram realizados três tipos de experimentos diferentes, o primeiro foi classificar novos documentos utilizando o método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a servir de base de consulta para classificar novos documentos, utilizando o modelo vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma melhor classificação em relação aos outros métodos, dos 14 novos documentos, classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor de termos criado pelo Weka.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação.	pt_BR
dc.subject.cnpq	Ciência da Informação.	pt_BR
dc.title	Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos.	pt_BR
dc.date.issued	2012-11-30	-
dc.description.abstract	Terms ambiguity is one of the factors that hinders the document indexation and information retrieval processes desired by a user. This work is based on the hypothesis that part of this problem can be minimized by knowing beforehand the field of the document that contains ambiguous terms. To determine this domain, typical vocabularies were created through the extraction of terms from documents of predetermined knowledge domains, with the use of syntactical rules. Wikipedia was used as a consultation base because it is a digital encyclopedia that contains the categories defined similar to the Universal Decimal Classification (UDC), each category containing a vast amount of specific documents, being this feature essential for the formation of a domain-specific vocabulary. The choice of the categories was based on the UDC, composed of 10 domains and their respective subdomains. The vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as the basis for the classification of new documents. For the validation of the TDVs, three different types of experiments were performed: the first was to classify new documents using the vectorial method, with the TDV as a basis of consultation. The second experiment was a classification using another classifier, the Intellexer Categorizer. For the third experiment was created a vector of terms through Weka, which was submitted to serve as a a consultation base to classify new documents using the vectorial model. The results were satisfactory, because they showed that the TDV obtained a better classification relative to other methods. Of the 14 new documents, properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy of the Intellexer Categorizer program and 50% of the classification using the Weka created vector of terms.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/1314	-
dc.date.accessioned	2018-08-01T17:34:31Z	-
dc.date.available	2018-08-01	-
dc.date.available	2018-08-01T17:34:31Z	-
dc.type	Dissertação	pt_BR
dc.subject	Vetores temáticos de domínios	pt_BR
dc.subject	Desambiguação polissêmica de termos	pt_BR
dc.subject	Indexação de documentos	pt_BR
dc.subject	Ambiguidade de termos - indexação	pt_BR
dc.subject	Vocabulários temáticos	pt_BR
dc.subject	Recuperação da informação	pt_BR
dc.subject	Classificação Decimal Universal - CDU	pt_BR
dc.subject	Vocabulário controlado	pt_BR
dc.subject	Classificação de documentos - método vetorial	pt_BR
dc.subject	Intellexer Categorizer	pt_BR
dc.subject	Processamento da linguagem natural	pt_BR
dc.subject	Postagger	pt_BR
dc.subject	Thematic vocabulaires	pt_BR
dc.subject	Document indexing	pt_BR
dc.subject	Information retrieval	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	BISPO, Magna Celi Tavares.	-
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Creation of thematic vectors of domains for the polysemic disambiguation of terms.	pt_BR
dc.identifier.citation	BISPO, Magna Celi Tavares. Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. 2012. 100f. (Dissertação de Mestrado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraiba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/1314	pt_BR
Appears in Collections:	Mestrado em Ciência da Computação.

Files in This Item:

File	Description	Size	Format
MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012.pdf	Magna Celi Tavares Bispo - Dissertação PPGCC 2012.	14 MB	Adobe PDF	View/Open

Show simple item record