DSpace/Manakin Repository

Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto.

Mostrar registro simples

dc.creator.ID MARTINS, A. D. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/4028898456588241
dc.contributor.advisor1 ALBERT, Bruno Barbosa.
dc.contributor.advisor1ID ALBERT, B. B. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/4530607277273584 pt_BR
dc.contributor.referee1 ASSIS, Francisco Marcos de.
dc.contributor.referee1ID ASSIS, F. M. pt_BR
dc.description.resumo Nesse trabalho é apresentado uma técnica de treinamento semi-supervisionado, originalmente introduzida por Kamal Paul Nigam (2001), que utiliza-se de amostras não-marcadas para a melhoria de desempenho do classificador Bayes Ingênuo. Tal metodologia é motivada pela redução de custos na construção de classificadores, visto que amostras marcadas são significativamente mais dispendiosas que amostras não-marcadas. Através da utilização do método de Maximização da Expectativa, mostra-se que o método tradicional de treinamento supervisionado pode ser superado ao se introduzir um conjunto de amostras não marcadas, reduzindo a quantidade de amostras marcadas necessárias para atingir certos patamares de desempenho. Experimentos realizados no corpus 20Newsgroup-18828 mostraram aumentos de desempenho similares aos obtidos por Nigam, mesmo relaxando algumas das condições impostas. Mais especificamente, ao relaxar a condição cronológica de teste (utilização de documentos mais antigos para o treino e mais recentes para o teste), foi observada uma manutenção das vantagens do método até um máximo de 15 classes. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Engenharia Elétrica. pt_BR
dc.title Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto. pt_BR
dc.date.issued 2012-08
dc.description.abstract Here we present Kamal Paul Nigam's semi-supervisioned training technique for improving the Naive Bayes classifier's performance through the use of unlabeled samples. This metodology is motivated by the cost reduction achived when building a classifier using fewer labeled samples (costlier) and more more unlabeled samples. It's shown that using a combination of Expectation-Maximization method and Naive Bayes learning surpasses the traditional one alone. Through the introduction of unlabeled samples in the learning, it's observed a reduction on the amount of labeled samples needed for achieving several performance levels. The experiments were performed on 20Newsgroups- 18828 corpus and show similar results to Nigam's, even when relaxing some of the conditions imposed. More specifically, we relaxed the chronologic condition (use older documents for training newer for testing), resulting in similar positive results while under 15 classes. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442
dc.date.accessioned 2021-06-16T20:24:56Z
dc.date.available 2021-06-16
dc.date.available 2021-06-16T20:24:56Z
dc.type Trabalho de Conclusão de Curso pt_BR
dc.subject Estágio em Engenharia Elétrica pt_BR
dc.subject Classificação de texto pt_BR
dc.subject Classificador Bayes Ingênuo pt_BR
dc.subject Amostras não-marcadas pt_BR
dc.subject Aprendizado de máquina pt_BR
dc.subject Aprendizado semi-supervisionado pt_BR
dc.subject Bayes ingênuo pt_BR
dc.subject Maximização da expectativa pt_BR
dc.subject Python pt_BR
dc.subject Scikit-learn pt_BR
dc.subject Algoritmo de Nigam pt_BR
dc.subject Internship in Electrical Engineering pt_BR
dc.subject Text classification pt_BR
dc.subject Naive Bayes Sorter pt_BR
dc.subject Unmarked samples pt_BR
dc.subject Machine learning pt_BR
dc.subject Semi-supervised learning pt_BR
dc.subject Naive bayes pt_BR
dc.subject Expectation Maximization pt_BR
dc.subject Nigam's Algorithm pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator MARTINS, André Dieb.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Use of unmarked samples to improve performance in sorting text. pt_BR
dc.identifier.citation MARTINS, André Dieb. Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto. 2012. 51f. (Relatório de Estágio Supervisionado) Curso de Bacharelado em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442 pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta