Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065
Title: Avaliação de ferramentas de extração de texto em documentos PDF.
Other Titles: Evaluation of text extraction tools in PDF documents.
???metadata.dc.creator???: NERY, Luiz Gustavo Alves.
???metadata.dc.contributor.advisor1???: BAPTISTA, Cláudio de Souza.
???metadata.dc.contributor.referee1???: FECHINE, Joseana Macêdo.
???metadata.dc.contributor.referee2???: BRASILEIRO, Francisco Vilar.
Keywords: Formato Portátil de Documento - PDF;Extração de Texto;Análise de Ferramentas;Eficiência;Métrica ROUGE;Layout;Portable Document Format – PDF;Text Extraction;Tool Analysis;Efficiency;ROUGE Metric
Issue Date: 15-May-2024
Publisher: Universidade Federal de Campina Grande
Citation: NERY, Luiz Gustavo Alves. Avaliação de ferramentas de extração de texto em documentos PDF. 2024. 14 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065
???metadata.dc.description.resumo???: Este estudo aborda a importância da extração precisa de informações em documentos PDF, destacando os desafios enfrentados devido à falta de uniformidade na estrutura e layout desses documentos. A extração de texto em documentos PDF, especialmente em contextos como Diários Oficiais, é crucial para automatizar processos e otimizar a análise de informações relevantes. A métrica ROUGE é utilizada para avaliar a qualidade da extração de texto pelas ferramentas e a importância de extrair todas as informações do texto original preservando a ordem de leitura. Diante da ineficiência e alto custo associado à extração manual de texto de documentos em formato PDF, este estudo visa proporcionar percepções significativas que auxiliam na escolha da ferramenta mais adequada, considerando os diferentes cenários de aplicação na extração de texto. A avaliação das ferramentas escolhidas, juntamente com a mensuração dos resultados através de métricas pertinentes à avaliação dos textos extraídos, aprimora a eficácia e a eficiência na análise dessas ferramentas.
Abstract: This study addresses the importance of accurately extracting information from PDF documents, highlighting the challenges faced due to the lack of uniformity in the structure and layout of these documents. Extracting text from PDF documents, especially in contexts such as Official Gazettes, is crucial for automating processes and optimizing the analysis of relevant information. The ROUGE metric is used to evaluate the quality of text extraction by the tools and the importance of extracting all information from the original text while preserving the reading order. Given the inefficiency and high cost associated with manual text extraction from documents in PDF format, this study aims to provide significant insights that help in choosing the most appropriate tool, considering the different application scenarios in text extraction. The evaluation of the chosen tools, together with the measurement of results through metrics relevant to the evaluation of the extracted texts, improves the effectiveness and efficiency in the analysis of these tools.
Keywords: Formato Portátil de Documento - PDF
Extração de Texto
Análise de Ferramentas
Eficiência
Métrica ROUGE
Layout
Portable Document Format – PDF
Text Extraction
Tool Analysis
Efficiency
ROUGE Metric
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
LUIZ GUSTAVO ALVES NERY-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf1.42 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.