Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/606

Full metadata record

DC Field	Value	Language
dc.creator.ID	SANTOS,	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/1246085373474860	pt_BR
dc.contributor.advisor1	GUERRERO, Dalton Dario Serey.	-
dc.contributor.advisor1ID	GUERRERO, D. D. S.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2050632960242405	pt_BR
dc.contributor.advisor2	FIGUEIREDO, Jorge césar Abrantes de.	-
dc.contributor.advisor2ID	FIGUEIREDO, J. C. A.	pt_BR
dc.contributor.advisor2Lattes	http://lattes.cnpq.br/1424808046858622	pt_BR
dc.contributor.referee1	KULESZA, Uira.	-
dc.contributor.referee2	MARINHO, Leandro Balby.	-
dc.contributor.referee3	MASSONI, Tiago Lima.	-
dc.contributor.referee4	BITTENCOURT, Renato almeida.	-
dc.description.resumo	Identiﬁcadores e comentários de um código fonte constituem o vocabulário de software. Pesquisas apontam vocabulários como uma fonte valorosa de informação sobre o projeto. Para entender a natureza e o potencial dos vocabulários, desenvolvemos um ferramental capaz de extraí-los a partir de código fonte. Explorando os dados estatisticamente, identificamos duas propriedades de vocabulários: tamanho, expresso como função de potência de LOC (Lines-Of-Code); e a repetição de seus termos, que se ajusta a uma distribuição log-normal. Vocabulários, bem como suas propriedades e operações foram formalizadas baseadas no conceito de multisets. O ferramental de extração e a formalização viabilizaram cooperações cientíﬁcas sobre a utilidade de vocabulário sem atividades de manutenção. Esse conhecimento acumulado revelou que vocabulário pouco foi explorado como insumo à modelagem de conhecimento de código. Desenvolvemos então uma abordagem para identiﬁcar especialistas de código cujo conhecimento é deﬁnido pela similaridade existente entre vocabulários das entidades e dos desenvolvedores. Comparamos a precisão e cobertura da nossa abordagem com de duas outras: baseada em commits e baseada em percentual de LOC modiﬁcadas. Os resultados apontam que para indicar um único especialista, top-1, a nossa abordagem tem uma precisão menor, entre 29.9% e 10% que as abordagens de baseline. Já para indicar mais de um desenvolvedor especialista, até top-3, a nossa abordagem tem uma acurácia melhor de até 18.7% em relação as de baseline. Identiﬁcamos também que o conhecimento definido por similaridade quando combinado com um modelo baseado em autoria aumenta a capacidade de identiﬁcar especialistas, no R2 do modelo, em mais de 4 pontos percentuais. Concluímos que além de poder ser utilizado de forma isolada para modelar conhecimento de código e assim identiﬁcar especialistas, o vocabulário pode ser um componente adicional a modelos de conhecimento baseados em autoria e propriedade, já que capturam aspectos diferentes dos existentes nesse modelos.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Ciência da Computação.	pt_BR
dc.title	Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas.	pt_BR
dc.date.issued	2015-02-28	-
dc.description.abstract	Identiﬁers and comments from a source code are the software vocabulary. Research point vocabularies as a valuable source of information about the project. To understand we developed a tool that extract them from source code. Exploring the data statistically, we identify two vocabularies properties: vocabulary size, that is a power function of LOC (Lines-Of-Code) and the repetition of vocabulary terms that ﬁts alog-normal distribution. Vocabulary as well as their properties and operations were formalized based on the concept of multisets. Extraction tool and formalization made possible scientiﬁc cooperation on usage of vocabulary in maintenance activities. This accumulated knowledge has shown that vocabulary was not explored as an input to code knowledge. Then we developed a code experts identiﬁcation approach whose knowledge is deﬁned by existing similarity between entities and developers vocabularies. We compared precision and recall with two baseline approaches: based on commits and based on percentage of modiﬁed LOC.The results show that to indicate a single specialist, top-1, our approach has alower precision, between 29.9% and 10%,than baseline approaches. More than one specialist-developer, up to top-3, our approach has better accuracy of up to 18.7% over those of the baselines. We also identify that the knowledge deﬁned by similarity when combined with an authorship model enhances the ability to identify experts, R2 of the model, by more than 4 points. We conclude that vocabulary can be solely used to expertise, and thus identify experts. In addition, vocabulary can be an additional component for models based on authorship and ownership, since it captures different aspects from ones existing in these models.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/606	-
dc.date.accessioned	2018-05-08T16:28:56Z	-
dc.date.available	2018-05-08	-
dc.date.available	2018-05-08T16:28:56Z	-
dc.type	Tese	pt_BR
dc.subject	Vocabulário de Software	pt_BR
dc.subject	Especialista de Código	pt_BR
dc.subject	Código-Fonte	pt_BR
dc.subject	Software Vocabulary	pt_BR
dc.subject	Source Code	pt_BR
dc.subject	Code Specialist	pt_BR
dc.subject	Vocabulário de Código-Fonte	pt_BR
dc.subject	Medidas de Expertise	pt_BR
dc.subject	Modelo Degree-Of-Knowledge DOK	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	SANTOS, Katyusco de Farias.	-
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Research on the use of source code vocabulary to identify specialists.	pt_BR
dc.identifier.citation	SANTOS, Katyusco de Farias. Investigação sobre uso de vocabulário de código-fonte para identiﬁcação de especialistas. 2015. 156 f. (Tese de Doutorado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2015. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/606	pt_BR
Appears in Collections:	Doutorado em Ciência da Computação.

Files in This Item:

File	Description	Size	Format
KATYUSCO DE FARIAS SANTOS - DISSERTAÇÃO PPGCC 2015..pdf	Katyusco de Farias Santos - Dissertação PPGCC 2015.	2.02 MB	Adobe PDF	View/Open

Show simple item record