Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36709
Full metadata record
DC FieldValueLanguage
dc.creator.IDNASCIMENTO, A. J.pt_BR
dc.contributor.advisor1MORAIS, Fábio Jorge Almeida.-
dc.contributor.advisor1IDMORAIS, F. J. A.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0987042606840444pt_BR
dc.contributor.referee1GOMES, Reinaldo Cezar de Morais.-
dc.contributor.referee1IDGOMES, Reinaldo Cézar de Moraispt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/8132074356628564pt_BR
dc.contributor.referee2MONGIOVI, Melina Mongiovi.-
dc.contributor.referee2IDMONGIOVI, M.pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7535849756393864pt_BR
dc.description.resumoUm dos maiores problemas encontrados em aplicações que estão envolvidas no ecossistema de Big Data está relacionado à disponibilidade e qualidade de dados para modelos de IA e outras análises direcionadas. Aplicações com esse foco necessitam de dados que disponham de alta qualidade, já que o resultado de seus serviços depende da integridade da informação usada no processo. Quando pensamos em dados textuais, devemos saber que a informação fornecida para aplicações que envolvem processamento de texto, devem ser as melhores possíveis. Desta forma, foi desenvolvido uma aplicação que trata da gerência da coleta e tratamento contínuo de dados textuais. O contexto da aplicação está fixo na coleta de dados textuais da rede social Reddit. Através da API fornecida pela rede, é feita a ingestão de dados de uma comunidade específica. Com base nos dados coletados, a ferramenta trata de fazer todo o orquestramento de tarefas que gerenciam a coleta, tratamento e disponibilização desses dados. Para teste da ferramenta, os dados disponíveis são passados para um modelo de PLN, que usa LDA para mapear tópicos com base nos textos extraídos do site. A aplicação se baseia nos conceitos de streaming de dados e processamento de texto, de forma contínua e automática, a fim de manter uma base de dados sólida e de qualidade para análises de texto.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.titleIngestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.pt_BR
dc.date.issued2023-11-17-
dc.description.abstractOne of the biggest problems encountered in applications that are involved in the Big Data ecosystem is related to the availability and quality of data for AI models and other targeted analyses. Applications with this focus need high-quality data, since the results of their services depend on the integrity of the information used in the process. When we think of textual data, we should know that the information provided to applications that involve text processing should be the best possible. An application has therefore been developed to manage the collection and ongoing processing of textual data. The context of the application is fixed on the collection of textual data from the Reddit social network. Using the API provided by the network, data is ingested from a specific community. Based on the data collected, the tool orchestrates all the tasks that manage the collection, processing and availability of this data. To test the tool, the available data is passed to a PLN model, which uses LDA to map topics based on the texts extracted from the site. The application is based on the concepts of streaming data and text processing, continuously and automatically, in order to maintain a solid, quality database for text analysis.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36709-
dc.date.accessioned2024-07-18T15:29:48Z-
dc.date.available2024-07-18-
dc.date.available2024-07-18T15:29:48Z-
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.subjectBig Datapt_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.subjectETLpt_BR
dc.subjectRedditpt_BR
dc.subjectInteligência Artificialpt_BR
dc.subjectNatural Language Processingpt_BR
dc.subjectArtificial intelligencept_BR
dc.rightsAcesso Abertopt_BR
dc.creatorNASCIMENTO, André Jordão do.-
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeIngesting and processing textual data from Reddit: a quality and availability solution.pt_BR
dc.identifier.citationNASCIMENTO, André Jordão do. Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade. 2023. 12 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.pt_BR
Appears in Collections:Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:
File Description SizeFormat 
ANDRÉ JORDÃO DO NASCIMENTO-ARTIGO-CEEI-CIÊNCIA DA COMPUTAÇÃO (2023).pdf644.72 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.