dc.creator.ID |
ARAÚJO JÚNIOR, J. G. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/1026450683366163 |
pt_BR |
dc.contributor.advisor1 |
SCHIEL, Ulrich. |
|
dc.contributor.advisor1ID |
SCHIEL, U. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/2971250918247087 |
pt_BR |
dc.contributor.advisor2 |
MARINHO, Leandro Balby. |
|
dc.contributor.advisor2ID |
MARINHO, L. B. |
pt_BR |
dc.contributor.advisor2Lattes |
http://lattes.cnpq.br/3728312501032061 |
pt_BR |
dc.contributor.referee1 |
PIRES, Carlos Eduardo Santos. |
|
dc.contributor.referee2 |
MOURA, Maria Fernanda. |
|
dc.description.resumo |
Atualmente, um dos principais desafios no campo da Recuperação de Informação (RI) é o
desenvolvimento de sistemas que processem corretamente a ideia ou conceito por trás das
consultas emitidas pelos usuários. Sistemas convencionais de RI, geralmente limitam suas
funcionalidades à indexação e recuperação por palavras-chave, mecanismo que gera resultados
incipientes quando termos indexados não são mencionados na consulta. Consultas
tais como: “O rei da música brasileira” e “Roberto Carlos”, mesmo utilizando um distinto
grupo de palavras, podem representar a mesma ideia ou conceito e, portanto, o sistema
deveria retornar o mesmo conjunto resposta. Entretanto, para sistemas de RI que não consideram
o aspecto semântico, ambas consultas retornarão, eventualmente, conjuntos respostas
distintos.
Propõe-se, neste trabalho, um novo paradigma de indexação semântica de conceitos,
onde, neste novo enfoque, conceitos presentes em documentos textuais são enriquecidos
semanticamente de maneira automática por meio de informações presentes em fontes heterogêneas
de informação, unindo, em um único ambiente, características de dicionários,
enciclopédias e de sentido comum. Desta maneira, isola-se a ideia ou conceitualização dos
objetos de suas inúmeras formas de representação.
A abordagem proposta foi comparada com o projeto UBY, um recurso léxico-semântico
de grande escala que combina uma vasta gama de informações construídas tanto por peritos
quanto coletivamente para o idioma Inglês e Alemão. De maneira que ambas foram submetidas
a diversas coleções de documentos e foi comprovada a superioridade da abordagem
proposta quando comparada ao UBY. Para isso, mediu-se o número de conceitos presentes
nas coleções de documentos identificados por ambas as abordagens; a conectividade,
onde computou-se para cada elemento identificado o número de conexões estabelecidas com
outros conceitos; e, a qualidade do enriquecimento semântico produzido, onde foram computadas
as relações semânticas estabelecidas entre conceitos. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.title |
Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação. |
pt_BR |
dc.date.issued |
2013-04-19 |
|
dc.description.abstract |
Nowadays, one of the main challenges in the area of Information Retrieval (IR) is the development
of systems that correctly process the idea or concept in the queries emitted by
users. Conventional IR systems usually limit their functionality to indexing and retrieving
keywords, which creates incipient results when indexed terms are not mentioned in the query.
Queries such as: “The king of Brazilian music” and “Roberto Carlos”, even using a distinguished
group of words, may represent the same idea or concept; therefore, the system should
return the same set of answers. However, for IR systems that do not consider the semantic
aspect, both queries return different answering sets.
In this work, we proposed a new paradigm of semantic indexing of concepts. With this
new approach, concepts present in textual documents are semantic enriched automatically
using information which is presented in heterogeneous sources joined in a single environment
features of dictionaries, encyclopedias and common sense. In this way, the idea of
object contextualization is isolated from the several forms of object representations.
The proposed approach was compared with UBY project, a large scale lexic-semantic
resource which combines a wide range of information built by experts and collectively for
English and German languages. Both approaches were subjected to various collections of
documents and was proven the superiority of the proposed approach compared to UBY. To
make this conclusion we measured: the number of concepts found in the collections of documents
identified by either approach; connectivity, which was computed for each element
identified the number of connections established with other concepts; and quality of produced
semantic enrichment, which was computed if the semantic relations between concepts
established are consistent. |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878 |
|
dc.date.accessioned |
2019-07-15T12:40:10Z |
|
dc.date.available |
2019-07-15 |
|
dc.date.available |
2019-07-15T12:40:10Z |
|
dc.type |
Dissertação |
pt_BR |
dc.subject |
Sistemas de Recuperação da Informação |
|
dc.subject |
Indexação Semântica |
|
dc.subject |
Fontes Heterogêneas |
|
dc.subject |
Fontes de Informação |
|
dc.subject |
Documentos Textuais |
|
dc.subject |
Tesauros |
|
dc.subject |
Information Retrieval Systems |
|
dc.subject |
Semantic Indexing |
|
dc.subject |
Heterogeneous Sources |
|
dc.subject |
Information Sources |
|
dc.subject |
Textual Documents |
|
dc.subject |
Thesaurus |
|
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
ARAÚJO JÚNIOR, José Gildo de. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
An approach to the semantic indexing of textual documents based on heterogeneous sources of information. |
pt_BR |
dc.identifier.citation |
ARAÚJO JÚNIOR, José Gildo de. Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação. 2013. 117f. (Dissertação de Mestrado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2013. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878 |
pt_BR |