Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442
Title: Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto.
Other Titles: Use of unmarked samples to improve performance in sorting text.
???metadata.dc.creator???: MARTINS, André Dieb.
???metadata.dc.contributor.advisor1???: ALBERT, Bruno Barbosa.
???metadata.dc.contributor.referee1???: ASSIS, Francisco Marcos de.
Keywords: Estágio em Engenharia Elétrica;Classificação de texto;Classificador Bayes Ingênuo;Amostras não-marcadas;Aprendizado de máquina;Aprendizado semi-supervisionado;Bayes ingênuo;Maximização da expectativa;Python;Scikit-learn;Algoritmo de Nigam;Internship in Electrical Engineering;Text classification;Naive Bayes Sorter;Unmarked samples;Machine learning;Semi-supervised learning;Naive bayes;Expectation Maximization;Nigam's Algorithm
Issue Date: Aug-2012
Publisher: Universidade Federal de Campina Grande
Citation: MARTINS, André Dieb. Uso de amostras não-marcadas para a melhoria de desempenho na classificação de texto. 2012. 51f. (Relatório de Estágio Supervisionado) Curso de Bacharelado em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442
???metadata.dc.description.resumo???: Nesse trabalho é apresentado uma técnica de treinamento semi-supervisionado, originalmente introduzida por Kamal Paul Nigam (2001), que utiliza-se de amostras não-marcadas para a melhoria de desempenho do classificador Bayes Ingênuo. Tal metodologia é motivada pela redução de custos na construção de classificadores, visto que amostras marcadas são significativamente mais dispendiosas que amostras não-marcadas. Através da utilização do método de Maximização da Expectativa, mostra-se que o método tradicional de treinamento supervisionado pode ser superado ao se introduzir um conjunto de amostras não marcadas, reduzindo a quantidade de amostras marcadas necessárias para atingir certos patamares de desempenho. Experimentos realizados no corpus 20Newsgroup-18828 mostraram aumentos de desempenho similares aos obtidos por Nigam, mesmo relaxando algumas das condições impostas. Mais especificamente, ao relaxar a condição cronológica de teste (utilização de documentos mais antigos para o treino e mais recentes para o teste), foi observada uma manutenção das vantagens do método até um máximo de 15 classes.
Abstract: Here we present Kamal Paul Nigam's semi-supervisioned training technique for improving the Naive Bayes classifier's performance through the use of unlabeled samples. This metodology is motivated by the cost reduction achived when building a classifier using fewer labeled samples (costlier) and more more unlabeled samples. It's shown that using a combination of Expectation-Maximization method and Naive Bayes learning surpasses the traditional one alone. Through the introduction of unlabeled samples in the learning, it's observed a reduction on the amount of labeled samples needed for achieving several performance levels. The experiments were performed on 20Newsgroups- 18828 corpus and show similar results to Nigam's, even when relaxing some of the conditions imposed. More specifically, we relaxed the chronologic condition (use older documents for training newer for testing), resulting in similar positive results while under 15 classes.
Keywords: Estágio em Engenharia Elétrica
Classificação de texto
Classificador Bayes Ingênuo
Amostras não-marcadas
Aprendizado de máquina
Aprendizado semi-supervisionado
Bayes ingênuo
Maximização da expectativa
Python
Scikit-learn
Algoritmo de Nigam
Internship in Electrical Engineering
Text classification
Naive Bayes Sorter
Unmarked samples
Machine learning
Semi-supervised learning
Naive bayes
Expectation Maximization
Nigam's Algorithm
???metadata.dc.subject.cnpq???: Engenharia Elétrica.
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/19442
Appears in Collections:Curso de Bacharelado em Engenharia Elétrica - CEEI - Relatórios de Estágio

Files in This Item:
File Description SizeFormat 
ANDRÉ DIEB MARTINS - RELATÓRIO DE ESTÁGIO ENG. ELÉTRICA 2012.pdfAndré Dieb Martins - Relatório de Estágio Eng. Elétrica 2012.806.75 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.