Classificação de imagens usando weak supervision.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/37761

Title:	Classificação de imagens usando weak supervision.
Other Titles:	Image classification using weak.
???metadata.dc.creator???:	FARIAS, Mainara Cavalcanti de.
???metadata.dc.contributor.advisor1???:	MARINHO, Leandro Balby.
???metadata.dc.contributor.referee1???:	ALMEIDA, Hyggo Oliveira de.
???metadata.dc.contributor.referee2???:	MASSONI, Tiago Lima.
Keywords:	Aprendizagem de Máquina;Rotulagem de Dados;Sistema Snorkel;Weak Supervision;Machine Learning;Data Labeling;Snorkel System
Issue Date:	21-Nov-2019
Publisher:	Universidade Federal de Campina Grande
Citation:	FARIAS, Mainara Cavalcanti de. Classificação de imagens usando weak supervision. 2019. 13 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2019.
???metadata.dc.description.resumo???:	Modelos de aprendizagem de máquina precisam de grandes conjuntos de dados para serem bem treinados. Porém, a criação desses dados rotulados ainda é um grande desafio para a aprendizagem de máquina supervisionada, já que muitas vezes é um processo manual bastante demorado e custoso. Por isso, usualmente são utilizadas bases de dados já existentes, no entanto, em muitos casos esses dados não refletem perfeitamente o contexto em que o modelo irá atuar. Como alternativa a essa abordagem tradicional, surgiu o paradigma data programming, utilizado para a criação programática de conjuntos de treinamento, nesse paradigma os usuários expressam estratégias de weak supervision para criar funções de rotulagem, as quais eventualmente são ruidosas. A fim de criar um modelo robusto aos ruídos produzidos por essas funções, pesquisadores da Universidade de Stanford criaram o sistema Snorkel, o qual se beneficia do acordo entre essas funções para a criação do seu modelo. Nesta pesquisa, o Snorkel é utilizado com o objetivo de rotular pessoas em imagens, uma tarefa diferente da qual o Snorkel vem sendo utilizado, pois as aplicações que fazem seu uso são geralmente no contexto de processamento de linguagem natural, pois é mais simples criar heurísticas que atuam em textos. O ambiente em que as imagens foram extraídas foi um laboratório no bloco CN, localizado na UFCG. Com o propósito de comparar o desempenho do modelo treinado com os dados do ambiente específico (gerados pelo Snorkel) e uma base de dados já existente (genérica), um modelo mais sofisticado foi treinado com os diferentes conjuntos de dados. A acurácia final do modelo treinado com os dados gerados pelo Snorkel foi de 84,94%, enquanto que o treinado com imagens genéricas foi de apenas 30%, indicando que o desempenho de um algoritmo de aprendizagem de máquina especializado em um ambiente específico é bastante superior a um treinado com dados genéricos.
Abstract:	Machine learning models need large datasets to be well trained. However, creating this labeled data is still a major challenge for supervised learning, as it is often a very time consuming and costly manual process. Therefore, existing databases are usually used, however, in many cases this data does not perfectly reflect the context in which the model will act. As an alternative to this traditional approach, the data programming paradigm arose, used for the programmatic creation of training sets, in this paradigm users express weak supervision strategies to create labeling functions, which eventually are noisy. In order to create a robust model to the noise produced by these functions, researchers at Stanford University created the Snorkel system, which benefits from the agreement of these functions to create their model. In this research, Snorkel is used for the purpose of labeling people in images, a different task from which Snorkel has been used, since the applications that make use of it are generally in the context of natural language processing, because it is simpler to create heuristics that act in texts. The environment in which the images were extracted was a laboratory in the CN block, located at UFCG. In order to compare the performance of the trained model with the specific environment data (generated by Snorkel) and an existing (generic) database, a more sophisticated model was trained with the different datasets. The final accuracy of the model trained with the data generated by Snorkel was 84.94%, while the one trained with generic images was only 30%, indicating that the performance of a specialized machine learning algorithm in a specific environment is far superior to one trained with generic data.
Keywords:	Aprendizagem de Máquina Rotulagem de Dados Sistema Snorkel Weak Supervision Machine Learning Data Labeling Snorkel System
???metadata.dc.subject.cnpq???:	Ciência da Computação
URI:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/37761
Appears in Collections:	Trabalho de Conclusão de Curso - Artigo - Ciência da Computação

Files in This Item:

File	Description	Size	Format
MAINARA CAVALCANTI DE FARIAS-ARTIGO-CIÊNCIA DA COMPUTAÇÃO-CEEI (2019).pdf		1.06 MB	Adobe PDF	View/Open

Show full item record