Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442
Full metadata record
DC FieldValueLanguage
dc.creator.IDMARTINS, A. D.pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/4028898456588241
dc.contributor.advisor1ALBERT, Bruno Barbosa.
dc.contributor.advisor1IDALBERT, B. B.pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4530607277273584pt_BR
dc.contributor.referee1ASSIS, Francisco Marcos de.
dc.contributor.referee1IDASSIS, F. M.pt_BR
dc.description.resumoNesse trabalho é apresentado uma técnica de treinamento semi-supervisionado, originalmente introduzida por Kamal Paul Nigam (2001), que utiliza-se de amostras não-marcadas para a melhoria de desempenho do classificador Bayes Ingênuo. Tal metodologia é motivada pela redução de custos na construção de classificadores, visto que amostras marcadas são significativamente mais dispendiosas que amostras não-marcadas. Através da utilização do método de Maximização da Expectativa, mostra-se que o método tradicional de treinamento supervisionado pode ser superado ao se introduzir um conjunto de amostras não marcadas, reduzindo a quantidade de amostras marcadas necessárias para atingir certos patamares de desempenho. Experimentos realizados no corpus 20Newsgroup-18828 mostraram aumentos de desempenho similares aos obtidos por Nigam, mesmo relaxando algumas das condições impostas. Mais especificamente, ao relaxar a condição cronológica de teste (utilização de documentos mais antigos para o treino e mais recentes para o teste), foi observada uma manutenção das vantagens do método até um máximo de 15 classes.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCentro de Engenharia Elétrica e Informática - CEEIpt_BR
dc.publisher.initialsUFCGpt_BR
dc.subject.cnpqEngenharia Elétrica.pt_BR
dc.titleUso de amostras não-marcadas para a melhoria de desempenho na classificação de texto.pt_BR
dc.date.issued2012-08
dc.description.abstractHere we present Kamal Paul Nigam's semi-supervisioned training technique for improving the Naive Bayes classifier's performance through the use of unlabeled samples. This metodology is motivated by the cost reduction achived when building a classifier using fewer labeled samples (costlier) and more more unlabeled samples. It's shown that using a combination of Expectation-Maximization method and Naive Bayes learning surpasses the traditional one alone. Through the introduction of unlabeled samples in the learning, it's observed a reduction on the amount of labeled samples needed for achieving several performance levels. The experiments were performed on 20Newsgroups- 18828 corpus and show similar results to Nigam's, even when relaxing some of the conditions imposed. More specifically, we relaxed the chronologic condition (use older documents for training newer for testing), resulting in similar positive results while under 15 classes.pt_BR
dc.identifier.urihttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442
dc.date.accessioned2021-06-16T20:24:56Z
dc.date.available2021-06-16
dc.date.available2021-06-16T20:24:56Z
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.subjectEstágio em Engenharia Elétricapt_BR
dc.subjectClassificação de textopt_BR
dc.subjectClassificador Bayes Ingênuopt_BR
dc.subjectAmostras não-marcadaspt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectAprendizado semi-supervisionadopt_BR
dc.subjectBayes ingênuopt_BR
dc.subjectMaximização da expectativapt_BR
dc.subjectPythonpt_BR
dc.subjectScikit-learnpt_BR
dc.subjectAlgoritmo de Nigampt_BR
dc.subjectInternship in Electrical Engineeringpt_BR
dc.subjectText classificationpt_BR
dc.subjectNaive Bayes Sorterpt_BR
dc.subjectUnmarked samplespt_BR
dc.subjectMachine learningpt_BR
dc.subjectSemi-supervised learningpt_BR
dc.subjectNaive bayespt_BR
dc.subjectExpectation Maximizationpt_BR
dc.subjectNigam's Algorithmpt_BR
dc.rightsAcesso Abertopt_BR
dc.creatorMARTINS, André Dieb.
dc.publisherUniversidade Federal de Campina Grandept_BR
dc.languageporpt_BR
dc.title.alternativeUse of unmarked samples to improve performance in sorting text.pt_BR
dc.identifier.citationMARTINS, André Dieb. Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto. 2012. 51f. (Relatório de Estágio Supervisionado) Curso de Bacharelado em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442pt_BR
Appears in Collections:Curso de Bacharelado em Engenharia Elétrica - CEEI - Relatórios de Estágio

Files in This Item:
File Description SizeFormat 
ANDRÉ DIEB MARTINS - RELATÓRIO DE ESTÁGIO ENG. ELÉTRICA 2012.pdfAndré Dieb Martins - Relatório de Estágio Eng. Elétrica 2012.806.75 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.