Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto.

Accueil de DSpace
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
CURSOS DE GRADUAÇÃO DO CEEI
→
Curso de Bacharelado em Engenharia Elétrica
→
Curso de Bacharelado em Engenharia Elétrica - CEEI - Relatórios de Estágio
→
Voir le document

dc.creator.ID	MARTINS, A. D.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/4028898456588241
dc.contributor.advisor1	ALBERT, Bruno Barbosa.
dc.contributor.advisor1ID	ALBERT, B. B.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4530607277273584	pt_BR
dc.contributor.referee1	ASSIS, Francisco Marcos de.
dc.contributor.referee1ID	ASSIS, F. M.	pt_BR
dc.description.resumo	Nesse trabalho é apresentado uma técnica de treinamento semi-supervisionado, originalmente introduzida por Kamal Paul Nigam (2001), que utiliza-se de amostras não-marcadas para a melhoria de desempenho do classificador Bayes Ingênuo. Tal metodologia é motivada pela redução de custos na construção de classificadores, visto que amostras marcadas são significativamente mais dispendiosas que amostras não-marcadas. Através da utilização do método de Maximização da Expectativa, mostra-se que o método tradicional de treinamento supervisionado pode ser superado ao se introduzir um conjunto de amostras não marcadas, reduzindo a quantidade de amostras marcadas necessárias para atingir certos patamares de desempenho. Experimentos realizados no corpus 20Newsgroup-18828 mostraram aumentos de desempenho similares aos obtidos por Nigam, mesmo relaxando algumas das condições impostas. Mais especificamente, ao relaxar a condição cronológica de teste (utilização de documentos mais antigos para o treino e mais recentes para o teste), foi observada uma manutenção das vantagens do método até um máximo de 15 classes.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Engenharia Elétrica.	pt_BR
dc.title	Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto.	pt_BR
dc.date.issued	2012-08
dc.description.abstract	Here we present Kamal Paul Nigam's semi-supervisioned training technique for improving the Naive Bayes classifier's performance through the use of unlabeled samples. This metodology is motivated by the cost reduction achived when building a classifier using fewer labeled samples (costlier) and more more unlabeled samples. It's shown that using a combination of Expectation-Maximization method and Naive Bayes learning surpasses the traditional one alone. Through the introduction of unlabeled samples in the learning, it's observed a reduction on the amount of labeled samples needed for achieving several performance levels. The experiments were performed on 20Newsgroups- 18828 corpus and show similar results to Nigam's, even when relaxing some of the conditions imposed. More specifically, we relaxed the chronologic condition (use older documents for training newer for testing), resulting in similar positive results while under 15 classes.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442
dc.date.accessioned	2021-06-16T20:24:56Z
dc.date.available	2021-06-16
dc.date.available	2021-06-16T20:24:56Z
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.subject	Estágio em Engenharia Elétrica	pt_BR
dc.subject	Classificação de texto	pt_BR
dc.subject	Classificador Bayes Ingênuo	pt_BR
dc.subject	Amostras não-marcadas	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Aprendizado semi-supervisionado	pt_BR
dc.subject	Bayes ingênuo	pt_BR
dc.subject	Maximização da expectativa	pt_BR
dc.subject	Python	pt_BR
dc.subject	Scikit-learn	pt_BR
dc.subject	Algoritmo de Nigam	pt_BR
dc.subject	Internship in Electrical Engineering	pt_BR
dc.subject	Text classification	pt_BR
dc.subject	Naive Bayes Sorter	pt_BR
dc.subject	Unmarked samples	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Semi-supervised learning	pt_BR
dc.subject	Naive bayes	pt_BR
dc.subject	Expectation Maximization	pt_BR
dc.subject	Nigam's Algorithm	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	MARTINS, André Dieb.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Use of unmarked samples to improve performance in sorting text.	pt_BR
dc.identifier.citation	MARTINS, André Dieb. Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto. 2012. 51f. (Relatório de Estágio Supervisionado) Curso de Bacharelado em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442	pt_BR