Configurando o Hadoop através de um processo empírico flexível.

Página inicial
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
→
Mestrado em Ciência da Computação.
→
Ver item

dc.creator.ID	SARMENTO NETO, G. A.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/1872447954071124	pt_BR
dc.contributor.advisor1	CAMPOS, Lívia Maria Rodrigues Sampaio.
dc.contributor.advisor1	LOPES, Raquel Vigolvino.
dc.contributor.advisor1ID	CAMPOS, L. M. R. S.	pt_BR
dc.contributor.advisor1ID	LOPES, R. V.
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4584896935221260	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0577503698179302
dc.contributor.referee1	BRITO, Andrey Elísio Monteiro.
dc.contributor.referee2	DUARTE, Alexandre Nobrega.
dc.description.resumo	A geração de grandes volumes de dados, também conhecidos com Big Data, vem se tornando muito comum em ambientes acadêmicos e corporativos. Nesse contexto, e essencial que as aplicações que processam Big Data explorem da melhor forma possível as infraestruturas distribuídas de alto desempenho (como clusters), possivelmente presentes nesses ambientes, através da implantação dessas aplicações sobre sistemas de computação intensiva de dados tais como o popular Hadoop. No que diz respeito a configuração desta plataforma, observa-se uma quantidade considerável de parâmetros que devem ser ajustados e os quais os usuários normalmente não tem noção de como faze-los, resultando em um Hadoop mal configurado e com um desempenho aquém do seu real potencial. Este trabalho propõe um processo para auxiliar a configuração eficiente do Hadoop através do uso de técnicas empíricas que utilizam subespaços de parâmetros dessa plataforma, e da aplicação de analises estatísticas para verificar a relevância dos mesmos, extraindo os valores otimizados em função do subespaço de parâmetros considerado. Visando instanciar o processo, foi realizado um estudo de caso de forma a obter uma configuração com impacto positivo sobre o tempo de resposta de uma aplica^ao representativa para esse contexto. A validação foi feita através de uma compara§ao do processo proposto com soluções existentes na qual foi possível observar que o processo teve uma significativa vantagem, levando em consideração o mesmo ambiente e workload utilizados na etapa de instanciação. Apesar do tempo médio de conclusão do processo ter sido maior que o das outras soluções, foram levantados cenários em que o uso do processo proposto e mais vantajoso (e possivelmente mais viável) que o uso das outras soluções. Isso ocorre devido a sua flexibilidade, uma vez que ele não apresenta restrições quanto ao subespaço de parâmetros selecionado e métricas possíveis de serem analisadas.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.title	Configurando o Hadoop através de um processo empírico flexível.	pt_BR
dc.date.issued	2012-04-23
dc.description.abstract	The generation of large amounts of data, also known as Big Data, is becoming very common both in the academy and in the enterprises environments. In that context, it is essential that applications responsible for processing Big Data exploit high-performance distributed infrastructures (such as cluster), commonly present in those environments, through the deploying of such applications on data-intensive scalable supercomputing (DISC) systems such as the popular Hadoop. Regarding the configuration of that platform, there is a considerable amount of parameters to be adjusted by users who do not know how to set them, resulting in a Hadoop poorly configured and performing below of its real potential. This work proposes a process to help in Hadoop efficient configuration by using empirical techniques to analyze subspaces of parameters of this platform, and the application of statistical foundations to verify the relevance of such parameters, obtaining the optimized values according to the subspace of parameters considered. Aiming the process instantiation, we performed a case study in order to obtain proper settings with a positive impact on the response time of a representative application in this context. The validation was performed through a comparison between the proposed process and some existing solutions in which we observed that the former had a significant advantage regarding same environment and workload used in the instantiation stage. Although the average completion time of the process has been higher than the other solutions, we presented scenarios which the use of the proposed process is more advantageous (and feasible) than the use of other solutions. This happens due to its flexibility, since it has no constraints on the subspace of selected parameters and metrics possible to be analyzed.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347
dc.date.accessioned	2020-01-29T18:28:12Z
dc.date.available	2020-01-29
dc.date.available	2020-01-29T18:28:12Z
dc.type	Dissertação	pt_BR
dc.subject	MapReduce
dc.subject	Hadoop
dc.subject	Configuração
dc.subject	Eficiência
dc.subject	Big Data
dc.subject	Clusters
dc.subject	Configuration
dc.subject	Efficiency
dc.rights	Acesso Aberto	pt_BR
dc.creator	SARMENTO NETO, Geraldo Abrantes.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Configuring Hadoop through a flexible empirical process.	pt_BR
dc.identifier.citation	SARMENTO NETO, Geraldo Abrantes. Configurando o Hadoop através de um processo empírico flexível. 95f. (Dissertação) Mestrado em Ciência da Computação, Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347	pt_BR