dc.creator.ID |
ALVES, André Luiz Firmino |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/5729800124276465 |
pt_BR |
dc.contributor.advisor1 |
BAPTISTA, Cláudio de Souza |
|
dc.contributor.advisor1ID |
BAPTISTA, C. S. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/0104124422364023 |
pt_BR |
dc.contributor.referee1 |
PIRES, Carlos Eduardo Santos. |
|
dc.contributor.referee2 |
VALADARES, Dalton Cézane Gomes. |
|
dc.contributor.referee3 |
BRAZ JUNIOR, Geraldo. |
|
dc.contributor.referee4 |
BARBOSA, Luciano de Andrade. |
|
dc.contributor.referee5 |
ANDRADE, Fabio Gomes de. |
|
dc.description.resumo |
O processo decisório nas organizações depende cada vez mais de dados. Contudo, problemas
relacionados à qualidade desses dados, como informações incompletas, inconsistentes
e redundantes, representam desafios significativos. A integração de dados surge como
uma área de pesquisa fundamental para combinar e unificar informações provenientes
de diferentes fontes e formatos, mesmo em ambientes heterogêneos e autônomos, de
modo a proporcionar uma visão abrangente e consistente das informações. No contexto
de transações comerciais de compra e venda, as empresas emitem notas fiscais para
comprovar as transações realizadas. Entretanto, os dados dos produtos presentes nessas
notas fiscais não possuem padronização, podendo apresentar descrições curtas, variadas
e inconsistências. Esta pesquisa aborda os desafios técnicos de integração de dados e
Product Matching em cenários com dados limitados ou incompletos, como os presentes
em notas fiscais. A abordagem proposta, denominada STEPMatch, utiliza técnicas de
Recuperação da Informação e Processamento de Linguagem Natural para realizar a
correspondência entre textos curtos, como as descrições de produtos encontradas nas notas
fiscais. Os resultados obtidos demonstram a eficácia do STEPMatch na correspondência
entre produtos, alcançando uma acurácia de 98,11% em um cenário de teste. Técnicas
de Cross-Lingual Learning também foram exploradas de forma inovadora na área de
Product Matching, aprimorando a generalização dos modelos de aprendizado de máquina
em contextos com escassez de dados anotados, com resultados promissores na adaptação
entre idiomas e domínios. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.subject.cnpq |
Ciência da Computação |
pt_BR |
dc.title |
Identificação de correspondências entre produtos a partir de descrições textuais curtas |
pt_BR |
dc.date.issued |
2025-04-10 |
|
dc.description.abstract |
Decision-making processes in organizations increasingly depend on data. Therefore, issues
related to data quality, such as incomplete, inconsistent, and redundant information,
represent significant challenges. Data integration emerges as a critical research area, focused
on combining and unifying information from different sources and formats, even
in heterogeneous and autonomous environments, aiming to provide a comprehensive and
consistent data view. For commercial transactions, companies issue invoices to document
sales and purchases. However, the product data within these invoices often lack standardization,
potentially presenting short, varied, and inconsistent descriptions. This research
addresses the technical challenges of data integration and Product Matching in scenarios
with limited or incomplete data, such as those in invoices. Our proposed approach, STEPMatch,
leverages Information Retrieval and Natural Language Processing techniques to
match short texts, such as invoice product descriptions. The results demonstrated the
effectiveness of STEPMatch, achieving an accuracy of 98.11% in a test scenario. Additionally,
we present a novel approach by adopting cross-lingual learning techniques within
the Product Matching field, enhancing the generalization of machine learning models in
contexts with limited labeled data and yielding promising results in cross-lingual and
cross-domain adaptation. Our primary contribution lies in adopting machine learning
techniques for product-matching, training in scenarios targeting low-resource language
data, and demonstrating the feasibility of improving product-matching quality in large
volumes of data from distinct languages |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/41569 |
|
dc.date.accessioned |
2025-04-10T12:55:02Z |
|
dc.date.available |
2025-04-10 |
|
dc.date.available |
2025-04-10T12:55:02Z |
|
dc.type |
Tese |
pt_BR |
dc.subject |
Recuperação da Informação |
pt_BR |
dc.subject |
Cross-Lingual Learning |
pt_BR |
dc.subject |
Processamento de Linguagem Natural |
pt_BR |
dc.subject |
Integração de Dados |
pt_BR |
dc.subject |
Product Matching |
pt_BR |
dc.subject |
Information Retrieval |
pt_BR |
dc.subject |
Cross Lingual Learning |
pt_BR |
dc.subject |
Natural Language Processing |
pt_BR |
dc.subject |
Data Integration |
pt_BR |
dc.subject |
Product Matching |
pt_BR |
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
ALVES, André Luiz Firmino. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
Identifying product matches from short textual descriptions |
pt_BR |
dc.identifier.citation |
ALVES, André Luiz Firmino. Identificação de correspondências entre produtos a partir de descrições textuais curtas. 2024. 145 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. |
pt_BR |