Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29273
Title: Utilizando técnicas de aprendizagem de máquina e NLP para extração de informações em licitações do Diário Oficial do Estado do Acre.
Other Titles: Using machine learning and NLP techniques to extract information on bids from the Official Gazette of the State of Acre.
???metadata.dc.creator???: RAMALHO, Rich Elton Carvalho.
???metadata.dc.contributor.advisor1???: BAPTISTA, Cláudio de Souza.
???metadata.dc.contributor.advisor2???: FIGUEIRÊDO, Hugo Feitosa de.
???metadata.dc.contributor.referee1???: OLIVEIRA, Maswell Guimarães de.
???metadata.dc.contributor.referee2???: BRASILEIRO, Francisco Vilar.
Keywords: Aprendizagem de máquina;Extração de informações;Diário Oficial do Estado do Acre - Licitações;Licitações - Diário Oficial do Estado do Acre;Processamento de linguagem natural;Tribunal de Contas do Estado do Acre - TCE-AC;Extração de dados;Machine learning;Information extraction;Official Gazette of the State of Acre - Bids;Bids - Official Gazette of the State of Acre;Natural language processing;Court of Auditors of the State of Acre - TCE-AC;Data extraction
Issue Date: 2-Sep-2022
Publisher: Universidade Federal de Campina Grande
Citation: RAMALHO, Rich Elton Carvalho. Utilizando técnicas de aprendizagem de máquina e NLP para extração de informações em licitações do Diário Oficial do Estado do Acre. 2022. 12f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática , Universidade Federal de Campina Grande – Paraíba - Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29273
???metadata.dc.description.resumo???: Sistemas de Extração de Informação auxiliam humanos na busca de informação específica em documentos. No entanto, a maioria destes sistemas não dão suporte a documentos no formato Portable Document Format (PDF), que é largamente utilizado. Em um documento PDF, o conteúdo do texto é misturado com metadados ou dados semi-estruturados, que dificultam os algoritmos de Processamento de Linguagem Natural (PLN) na extração da informação requerida. O Tribunal de Contas do Estado do Acre (TCE-AC) é o órgão fiscalizador e controlador do uso do dinheiro público e da administração orçamentária e financeira do estado do Acre, responsável por analisar e julgar as contas públicas dos jurisdicionados. Os jurisdicionados devem publicar informações relacionadas às licitações tanto no sistema de gerenciamento de licitações do TCE-AC como também no Diário Oficial do Estado do Acre (DOE), que usa o formato PDF. É de responsabilidade do TCE-AC verificar se as informações da licitação estão nos dois lugares, gerando assim, um grande trabalho manual. Neste trabalho, apresentamos uma solução de PLN com objetivo de extrair os atos do DOE, categorizar automaticamente os atos como licitação ou não, em caso afirmativo, serão utilizadas técnicas avançadas de PLN para processar e extrair as entidades e informações da licitação para que seja possível auxiliar o TCE-AC a verificar se a licitação
Abstract: Information Extraction Systems assist humans in searching for specific information in documents. However, most of these systems do not support documents in the Portable Document Format (PDF), which is widely used. In a PDF document, the text content is mixed with metadata or semi-structured data, which makes it difficult for Natural Language Processing (NLP) algorithms to extract the required information. The Court of Auditors of the State of Acre (TCE-AC) is the supervisory and controlling body of the use of public money and the budget and financial administration of the state of Acre, responsible for analyzing and judging the public accounts of the jurisdictions. Jurisdictions must publish information related to bids both in the TCE-AC bid management system and in the Official Gazette of the State of Acre (DOE), which uses the PDF format. It is the responsibility of the TCE-AC to verify that the bidding information is in both places, thus generating a lot of manual work. In this work, we present a PLN solution with the objective of extracting the DOE acts, automatically categorizing the acts as bidding or not, if so, advanced PLN techniques will be used to process and extract the entities and information from the bidding so that it is possible assist the TCE-AC to verify that the bid is also in the bid management system.
Keywords: Aprendizagem de máquina
Extração de informações
Diário Oficial do Estado do Acre - Licitações
Licitações - Diário Oficial do Estado do Acre
Processamento de linguagem natural
Tribunal de Contas do Estado do Acre - TCE-AC
Extração de dados
Machine learning
Information extraction
Official Gazette of the State of Acre - Bids
Bids - Official Gazette of the State of Acre
Natural language processing
Court of Auditors of the State of Acre - TCE-AC
Data extraction
???metadata.dc.subject.cnpq???: Ciência da Computação.
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29273
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
RICH ELTON CARVALHO RAMALHO - TCC ARTIGO CIÊNCIA DA COMPUTAÇÃO CEEI 2022.pdfRich Elton Carvalho Ramalho - TCC Artigo Ciência da Computação CEEI 2022702.73 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.