Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501

Full metadata record

DC Field	Value	Language
dc.creator.ID	FIRMINO, A. A.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6042902332948785	pt_BR
dc.contributor.advisor1	BAPTISTA, Cláudio de Souza.	-
dc.contributor.advisor1ID	BAPTISTA, C. S.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0104124422364023	pt_BR
dc.contributor.referee1	GOMES, Herman Martins.	-
dc.contributor.referee1ID	GOMES, H. M.	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/4223020694433271	pt_BR
dc.contributor.referee2	PEREIRA, Eanes Torres.	-
dc.contributor.referee2ID	PEREIRA, E. T.	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/2030738304003254	pt_BR
dc.contributor.referee3	BRAZ JÚNIOR, Geraldo.	-
dc.contributor.referee3ID	BRAZ JÚNIOR, Geraldo.	pt_BR
dc.contributor.referee3Lattes	http://lattes.cnpq.br/8287861610873629	pt_BR
dc.contributor.referee4	CARVALHO, Windson Viana de.	-
dc.contributor.referee4ID	CARVALHO, W. V.	pt_BR
dc.contributor.referee4Lattes	http://lattes.cnpq.br/1744732999336375	pt_BR
dc.description.resumo	O crescimento das mídias sociais em todo o mundo trouxe benefícios e desafios para a sociedade. Dentre os desafios, destaca-se a proliferação do discurso de ódio nas redes sociais. Hodiernamente, a detecção de discurso do ódio tornou-se uma tarefa árdua. Cerca de 22,5 milhões de postagens com discurso de ódio foram removidas nas redes sociais entre abril e junho de 2020. Destarte, faz-se necessário o desenvolvimento de pesquisas que busquem soluções automatizadas para identificar e remover discurso de ódio nas redes sociais. Nesta tese, propõe-se uma nova metodologia para detecção de discurso de ódio em textos em português. Esta metodologia faz uso de Cross - Lingual Learning, que consiste em usar transferência de aprendizagem em Modelos de Linguagem Pré -Treinados (MLPTs) com um idioma com grandes corpora disponíveis (idioma fonte) para resolver problemas em idiomas com menos dados anotados (idioma alvo). A metodologia proposta compreende quatro etapas: aquisição de corpora, definição de MLPT, estratégias de treinamento e avaliação. Foram realizados experimentos utilizando Modelos de Linguagem Pré -Treinados em diferentes idiomas: Inglês, Italiano e Português (BERT e XLM-R) para verificar qual deles se adequava melhor ao método proposto. Corpora em inglês (WH) e italiano (Evalita 2018) foram utilizados como idioma fonte e dois corpora em português (idioma alvo) foram utilizados: OffComBr-2 e Hate Speech Dataset (HSD). Os resultados dos experimentos demonstraram que a metodologia proposta é competitiva com o estado da arte: para o corpus OffComBr-2 obteve-se o melhor resultado dentre os trabalhos que utilizaram o mesmo corpus, com Medida F1 = 92%; e para o corpus HSD, obteve-se o segundo melhor resultado, com Medida F1 = 90%.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.title	Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.	pt_BR
dc.date.issued	2022-05-18	-
dc.description.abstract	The growth of social media around the world has brought both benefits and challenges to society. Among the challenges, we highlight the proliferation of hate speech in social networks. Detecting hate speech has become an arduous task in today’s world. About 22.5 million posts with hate speech were removed from social networks between April and June 2020. Thus, it is necessary to develop research that seek automated solutions to identify and remove hate speech in social networks. In this thesis, we propose a new methodology for detecting hate speech in Portuguese texts. This methodology uses Cross-Lingual Learning, which consists of using transfer learning in Pre-Trained Language Models with a language with large corpora available (source language) to solve problems in languages with less annotated data (target language). The proposed methodology comprises four stages: corpora acquisition, definition of PTLM, training strategies and evaluation. We carried out experiments using Pre-Trained Language Models in different languages: English, Italian and Portuguese (BERT and XLM-R) to verify which one best suited the proposed method. Corpora in English (WH) and Italian (Evalita 2018) were used as source language and two corpora in Portuguese (target language) were used: OffComBr-2 and Hate Speech Dataset (HSD). The results of the experiments showed that the proposed methodology is promising: for the OffComBr-2 corpus, the best state-of-the-art result was obtained (F1 Score = 92%); and for the HSD corpus, the second best result was obtained (F1 Score = 90%).	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501	-
dc.date.accessioned	2022-09-29T14:45:00Z	-
dc.date.available	2022-09-29	-
dc.date.available	2022-09-29T14:45:00Z	-
dc.type	Tese	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Detecção de discurso de ódio	pt_BR
dc.subject	Redes sociais	pt_BR
dc.subject	Cross-lingual learning	pt_BR
dc.subject	Natural language processing	pt_BR
dc.subject	Social networks	pt_BR
dc.subject	Hate speech detection	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	FIRMINO, Anderson Almeida.	-
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	An approach to detecting hate speech using machine learning based on cross-languages.	pt_BR
dc.identifier.citation	FIRMINO, Anderson Almeida. Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas. 2022. 107 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501	pt_BR
Appears in Collections:	Doutorado em Ciência da Computação.

Files in This Item:

File	Description	Size	Format
ANDERSON ALMEIDA FIRMINO – TESE PPGCC 2022.pdf	Anderson Almeida Firmino - Tese PPGCC 2022	3.16 MB	Adobe PDF	View/Open

Show simple item record