dc.creator.ID |
FIRMINO, A. A. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/6042902332948785 |
pt_BR |
dc.contributor.advisor1 |
BAPTISTA, Cláudio de Souza. |
|
dc.contributor.advisor1ID |
BAPTISTA, C. S. |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/0104124422364023 |
pt_BR |
dc.contributor.referee1 |
GOMES, Herman Martins. |
|
dc.contributor.referee1ID |
GOMES, H. M. |
pt_BR |
dc.contributor.referee1Lattes |
http://lattes.cnpq.br/4223020694433271 |
pt_BR |
dc.contributor.referee2 |
PEREIRA, Eanes Torres. |
|
dc.contributor.referee2ID |
PEREIRA, E. T. |
pt_BR |
dc.contributor.referee2Lattes |
http://lattes.cnpq.br/2030738304003254 |
pt_BR |
dc.contributor.referee3 |
BRAZ JÚNIOR, Geraldo. |
|
dc.contributor.referee3ID |
BRAZ JÚNIOR, Geraldo. |
pt_BR |
dc.contributor.referee3Lattes |
http://lattes.cnpq.br/8287861610873629 |
pt_BR |
dc.contributor.referee4 |
CARVALHO, Windson Viana de. |
|
dc.contributor.referee4ID |
CARVALHO, W. V. |
pt_BR |
dc.contributor.referee4Lattes |
http://lattes.cnpq.br/1744732999336375 |
pt_BR |
dc.description.resumo |
O crescimento das mídias sociais em todo o mundo trouxe benefícios e desafios para a
sociedade. Dentre os desafios, destaca-se a proliferação do discurso de ódio nas redes sociais.
Hodiernamente, a detecção de discurso do ódio tornou-se uma tarefa árdua. Cerca de 22,5
milhões de postagens com discurso de ódio foram removidas nas redes sociais entre abril e
junho de 2020. Destarte, faz-se necessário o desenvolvimento de pesquisas que busquem
soluções automatizadas para identificar e remover discurso de ódio nas redes sociais. Nesta
tese, propõe-se uma nova metodologia para detecção de discurso de ódio em textos em
português. Esta metodologia faz uso de Cross - Lingual Learning, que consiste em usar
transferência de aprendizagem em Modelos de Linguagem Pré -Treinados (MLPTs) com
um idioma com grandes corpora disponíveis (idioma fonte) para resolver problemas em
idiomas com menos dados anotados (idioma alvo). A metodologia proposta compreende
quatro etapas: aquisição de corpora, definição de MLPT, estratégias de treinamento e
avaliação. Foram realizados experimentos utilizando Modelos de Linguagem Pré -Treinados
em diferentes idiomas: Inglês, Italiano e Português (BERT e XLM-R) para verificar qual
deles se adequava melhor ao método proposto. Corpora em inglês (WH) e italiano (Evalita
2018) foram utilizados como idioma fonte e dois corpora em português (idioma alvo) foram
utilizados: OffComBr-2 e Hate Speech Dataset (HSD). Os resultados dos experimentos
demonstraram que a metodologia proposta é competitiva com o estado da arte: para o
corpus OffComBr-2 obteve-se o melhor resultado dentre os trabalhos que utilizaram o
mesmo corpus, com Medida F1 = 92%; e para o corpus HSD, obteve-se o segundo melhor
resultado, com Medida F1 = 90%. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.subject.cnpq |
Ciência da Computação |
pt_BR |
dc.title |
Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas. |
pt_BR |
dc.date.issued |
2022-05-18 |
|
dc.description.abstract |
The growth of social media around the world has brought both benefits and challenges
to society. Among the challenges, we highlight the proliferation of hate speech in social
networks. Detecting hate speech has become an arduous task in today’s world. About 22.5
million posts with hate speech were removed from social networks between April and June
2020. Thus, it is necessary to develop research that seek automated solutions to identify
and remove hate speech in social networks. In this thesis, we propose a new methodology
for detecting hate speech in Portuguese texts. This methodology uses Cross-Lingual
Learning, which consists of using transfer learning in Pre-Trained Language Models with
a language with large corpora available (source language) to solve problems in languages
with less annotated data (target language). The proposed methodology comprises four
stages: corpora acquisition, definition of PTLM, training strategies and evaluation. We
carried out experiments using Pre-Trained Language Models in different languages: English,
Italian and Portuguese (BERT and XLM-R) to verify which one best suited the proposed
method. Corpora in English (WH) and Italian (Evalita 2018) were used as source language
and two corpora in Portuguese (target language) were used: OffComBr-2 and Hate Speech
Dataset (HSD). The results of the experiments showed that the proposed methodology is
promising: for the OffComBr-2 corpus, the best state-of-the-art result was obtained (F1
Score = 92%); and for the HSD corpus, the second best result was obtained (F1 Score =
90%). |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501 |
|
dc.date.accessioned |
2022-09-29T14:45:00Z |
|
dc.date.available |
2022-09-29 |
|
dc.date.available |
2022-09-29T14:45:00Z |
|
dc.type |
Tese |
pt_BR |
dc.subject |
Processamento de linguagem natural |
pt_BR |
dc.subject |
Detecção de discurso de ódio |
pt_BR |
dc.subject |
Redes sociais |
pt_BR |
dc.subject |
Cross-lingual learning |
pt_BR |
dc.subject |
Natural language processing |
pt_BR |
dc.subject |
Social networks |
pt_BR |
dc.subject |
Hate speech detection |
pt_BR |
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
FIRMINO, Anderson Almeida. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
An approach to detecting hate speech using machine learning based on cross-languages. |
pt_BR |
dc.identifier.citation |
FIRMINO, Anderson Almeida. Uma abordagem para detecção de discurso de ódio utilizando
aprendizado de máquina baseado em cruzamento de idiomas. 2022. 107 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501 |
pt_BR |