DSpace/Manakin Repository

Avaliação de ferramentas de extração de texto em documentos PDF.

Mostrar registro simples

dc.creator.ID NERY, L. G. A. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/9635566043548464 pt_BR
dc.contributor.advisor1 BAPTISTA, Cláudio de Souza.
dc.contributor.advisor1ID BAPTISTA, C. S. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/0104124422364023 pt_BR
dc.contributor.referee1 FECHINE, Joseana Macêdo.
dc.contributor.referee1ID FECHINE, J. M. pt_BR
dc.contributor.referee1Lattes http://lattes.cnpq.br/7179691582151907 pt_BR
dc.contributor.referee2 BRASILEIRO, Francisco Vilar.
dc.contributor.referee2ID BRASILEIRO, F. V. pt_BR
dc.contributor.referee2Lattes http://lattes.cnpq.br/5957855817378897 pt_BR
dc.description.resumo Este estudo aborda a importância da extração precisa de informações em documentos PDF, destacando os desafios enfrentados devido à falta de uniformidade na estrutura e layout desses documentos. A extração de texto em documentos PDF, especialmente em contextos como Diários Oficiais, é crucial para automatizar processos e otimizar a análise de informações relevantes. A métrica ROUGE é utilizada para avaliar a qualidade da extração de texto pelas ferramentas e a importância de extrair todas as informações do texto original preservando a ordem de leitura. Diante da ineficiência e alto custo associado à extração manual de texto de documentos em formato PDF, este estudo visa proporcionar percepções significativas que auxiliam na escolha da ferramenta mais adequada, considerando os diferentes cenários de aplicação na extração de texto. A avaliação das ferramentas escolhidas, juntamente com a mensuração dos resultados através de métricas pertinentes à avaliação dos textos extraídos, aprimora a eficácia e a eficiência na análise dessas ferramentas. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Ciência da Computação pt_BR
dc.title Avaliação de ferramentas de extração de texto em documentos PDF. pt_BR
dc.date.issued 2024-05-15
dc.description.abstract This study addresses the importance of accurately extracting information from PDF documents, highlighting the challenges faced due to the lack of uniformity in the structure and layout of these documents. Extracting text from PDF documents, especially in contexts such as Official Gazettes, is crucial for automating processes and optimizing the analysis of relevant information. The ROUGE metric is used to evaluate the quality of text extraction by the tools and the importance of extracting all information from the original text while preserving the reading order. Given the inefficiency and high cost associated with manual text extraction from documents in PDF format, this study aims to provide significant insights that help in choosing the most appropriate tool, considering the different application scenarios in text extraction. The evaluation of the chosen tools, together with the measurement of results through metrics relevant to the evaluation of the extracted texts, improves the effectiveness and efficiency in the analysis of these tools. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065
dc.date.accessioned 2024-09-26T21:17:35Z
dc.date.available 2024-09-26
dc.date.available 2024-09-26T21:17:35Z
dc.type Trabalho de Conclusão de Curso pt_BR
dc.subject Formato Portátil de Documento - PDF pt_BR
dc.subject Extração de Texto pt_BR
dc.subject Análise de Ferramentas pt_BR
dc.subject Eficiência pt_BR
dc.subject Métrica ROUGE pt_BR
dc.subject Layout pt_BR
dc.subject Portable Document Format – PDF pt_BR
dc.subject Text Extraction pt_BR
dc.subject Tool Analysis pt_BR
dc.subject Efficiency pt_BR
dc.subject ROUGE Metric pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator NERY, Luiz Gustavo Alves.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Evaluation of text extraction tools in PDF documents. pt_BR
dc.identifier.citation NERY, Luiz Gustavo Alves. Avaliação de ferramentas de extração de texto em documentos PDF. 2024. 14 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/38065 pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta