dc.creator.ID |
SARMENTO NETO, G. A. |
pt_BR |
dc.creator.Lattes |
http://lattes.cnpq.br/1872447954071124 |
pt_BR |
dc.contributor.advisor1 |
CAMPOS, Lívia Maria Rodrigues Sampaio. |
|
dc.contributor.advisor1 |
LOPES, Raquel Vigolvino. |
|
dc.contributor.advisor1ID |
CAMPOS, L. M. R. S. |
pt_BR |
dc.contributor.advisor1ID |
LOPES, R. V. |
|
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/4584896935221260 |
pt_BR |
dc.contributor.advisor1Lattes |
http://lattes.cnpq.br/0577503698179302 |
|
dc.contributor.referee1 |
BRITO, Andrey Elísio Monteiro. |
|
dc.contributor.referee2 |
DUARTE, Alexandre Nobrega. |
|
dc.description.resumo |
A geração de grandes volumes de dados, também conhecidos com Big Data, vem se tornando
muito comum em ambientes acadêmicos e corporativos. Nesse contexto, e essencial
que as aplicações que processam Big Data explorem da melhor forma possível as infraestruturas
distribuídas de alto desempenho (como clusters), possivelmente presentes nesses ambientes,
através da implantação dessas aplicações sobre sistemas de computação intensiva de
dados tais como o popular Hadoop. No que diz respeito a configuração desta plataforma,
observa-se uma quantidade considerável de parâmetros que devem ser ajustados e os quais
os usuários normalmente não tem noção de como faze-los, resultando em um Hadoop mal
configurado e com um desempenho aquém do seu real potencial. Este trabalho propõe um
processo para auxiliar a configuração eficiente do Hadoop através do uso de técnicas empíricas
que utilizam subespaços de parâmetros dessa plataforma, e da aplicação de analises estatísticas
para verificar a relevância dos mesmos, extraindo os valores otimizados em função
do subespaço de parâmetros considerado. Visando instanciar o processo, foi realizado um
estudo de caso de forma a obter uma configuração com impacto positivo sobre o tempo de
resposta de uma aplica^ao representativa para esse contexto. A validação foi feita através de
uma compara§ao do processo proposto com soluções existentes na qual foi possível observar
que o processo teve uma significativa vantagem, levando em consideração o mesmo ambiente
e workload utilizados na etapa de instanciação. Apesar do tempo médio de conclusão do
processo ter sido maior que o das outras soluções, foram levantados cenários em que o uso
do processo proposto e mais vantajoso (e possivelmente mais viável) que o uso das outras
soluções. Isso ocorre devido a sua flexibilidade, uma vez que ele não apresenta restrições
quanto ao subespaço de parâmetros selecionado e métricas possíveis de serem analisadas. |
pt_BR |
dc.publisher.country |
Brasil |
pt_BR |
dc.publisher.department |
Centro de Engenharia Elétrica e Informática - CEEI |
pt_BR |
dc.publisher.program |
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.publisher.initials |
UFCG |
pt_BR |
dc.title |
Configurando o Hadoop através de um processo empírico flexível. |
pt_BR |
dc.date.issued |
2012-04-23 |
|
dc.description.abstract |
The generation of large amounts of data, also known as Big Data, is becoming very common
both in the academy and in the enterprises environments. In that context, it is essential
that applications responsible for processing Big Data exploit high-performance distributed
infrastructures (such as cluster), commonly present in those environments, through the deploying
of such applications on data-intensive scalable supercomputing (DISC) systems such
as the popular Hadoop. Regarding the configuration of that platform, there is a considerable
amount of parameters to be adjusted by users who do not know how to set them, resulting
in a Hadoop poorly configured and performing below of its real potential. This work proposes
a process to help in Hadoop efficient configuration by using empirical techniques to
analyze subspaces of parameters of this platform, and the application of statistical foundations
to verify the relevance of such parameters, obtaining the optimized values according
to the subspace of parameters considered. Aiming the process instantiation, we performed a
case study in order to obtain proper settings with a positive impact on the response time of a
representative application in this context. The validation was performed through a comparison
between the proposed process and some existing solutions in which we observed that
the former had a significant advantage regarding same environment and workload used in
the instantiation stage. Although the average completion time of the process has been higher
than the other solutions, we presented scenarios which the use of the proposed process is
more advantageous (and feasible) than the use of other solutions. This happens due to its
flexibility, since it has no constraints on the subspace of selected parameters and metrics
possible to be analyzed. |
pt_BR |
dc.identifier.uri |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347 |
|
dc.date.accessioned |
2020-01-29T18:28:12Z |
|
dc.date.available |
2020-01-29 |
|
dc.date.available |
2020-01-29T18:28:12Z |
|
dc.type |
Dissertação |
pt_BR |
dc.subject |
MapReduce |
|
dc.subject |
Hadoop |
|
dc.subject |
Configuração |
|
dc.subject |
Eficiência |
|
dc.subject |
Big Data |
|
dc.subject |
Clusters |
|
dc.subject |
Configuration |
|
dc.subject |
Efficiency |
|
dc.rights |
Acesso Aberto |
pt_BR |
dc.creator |
SARMENTO NETO, Geraldo Abrantes. |
|
dc.publisher |
Universidade Federal de Campina Grande |
pt_BR |
dc.language |
por |
pt_BR |
dc.title.alternative |
Configuring Hadoop through a flexible empirical process. |
pt_BR |
dc.identifier.citation |
SARMENTO NETO, Geraldo Abrantes. Configurando o Hadoop através de um processo empírico flexível. 95f. (Dissertação) Mestrado em Ciência da Computação, Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Campina Grande - Paraíba - Brasil, 2012. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347 |
pt_BR |