Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065
Full metadata record
DC FieldValueLanguage
dc.creator.IDNERY, L. G. A.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/9635566043548464pt_BR
dc.contributor.advisor1BAPTISTA, Cláudio de Souza.
dc.contributor.advisor1IDBAPTISTA, C. S.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0104124422364023pt_BR
dc.contributor.referee1FECHINE, Joseana Macêdo.
dc.contributor.referee1IDFECHINE, J. M.pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7179691582151907pt_BR
dc.contributor.referee2BRASILEIRO, Francisco Vilar.
dc.contributor.referee2IDBRASILEIRO, F. V.pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5957855817378897pt_BR
dc.description.resumoEste estudo aborda a importância da extração precisa de informações em documentos PDF, destacando os desafios enfrentados devido à falta de uniformidade na estrutura e layout desses documentos. A extração de texto em documentos PDF, especialmente em contextos como Diários Oficiais, é crucial para automatizar processos e otimizar a análise de informações relevantes. A métrica ROUGE é utilizada para avaliar a qualidade da extração de texto pelas ferramentas e a importância de extrair todas as informações do texto original preservando a ordem de leitura. Diante da ineficiência e alto custo associado à extração manual de texto de documentos em formato PDF, este estudo visa proporcionar percepções significativas que auxiliam na escolha da ferramenta mais adequada, considerando os diferentes cenários de aplicação na extração de texto. A avaliação das ferramentas escolhidas, juntamente com a mensuração dos resultados através de métricas pertinentes à avaliação dos textos extraídos, aprimora a eficácia e a eficiência na análise dessas ferramentas.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleAvaliação de ferramentas de extração de texto em documentos PDF.pt_BR
dc.date.issued2024-05-15
dc.description.abstractThis study addresses the importance of accurately extracting information from PDF documents, highlighting the challenges faced due to the lack of uniformity in the structure and layout of these documents. Extracting text from PDF documents, especially in contexts such as Official Gazettes, is crucial for automating processes and optimizing the analysis of relevant information. The ROUGE metric is used to evaluate the quality of text extraction by the tools and the importance of extracting all information from the original text while preserving the reading order. Given the inefficiency and high cost associated with manual text extraction from documents in PDF format, this study aims to provide significant insights that help in choosing the most appropriate tool, considering the different application scenarios in text extraction. The evaluation of the chosen tools, together with the measurement of results through metrics relevant to the evaluation of the extracted texts, improves the effectiveness and efficiency in the analysis of these tools.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065
dc.date.accessioned2024-09-26T21:17:35Z
dc.date.available2024-09-26
dc.date.available2024-09-26T21:17:35Z
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.subjectFormato Portátil de Documento - PDFpt_BR
dc.subjectExtração de Textopt_BR
dc.subjectAnálise de Ferramentaspt_BR
dc.subjectEficiênciapt_BR
dc.subjectMétrica ROUGEpt_BR
dc.subjectLayoutpt_BR
dc.subjectPortable Document Format – PDFpt_BR
dc.subjectText Extractionpt_BR
dc.subjectTool Analysispt_BR
dc.subjectEfficiencypt_BR
dc.subjectROUGE Metricpt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorNERY, Luiz Gustavo Alves.
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeEvaluation of text extraction tools in PDF documents.pt_BR
dc.identifier.citationNERY, Luiz Gustavo Alves. Avaliação de ferramentas de extração de texto em documentos PDF. 2024. 14 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065pt_BR
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
LUIZ GUSTAVO ALVES NERY-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2024).pdf1.42 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.