Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28719
Title: Applying control theory to the orchestration of data stream processing systems.
Other Titles: Aplicando a teoria de controle à orquestração de sistemas de processamento de fluxo de dados.
???metadata.dc.creator???: SAMPAIO, Lília Rodrigues.
???metadata.dc.contributor.advisor1???: BRITO, Andrey Elísio Monteiro.
???metadata.dc.contributor.referee1???: MORAIS, Fábio Jorge Almeida.
???metadata.dc.contributor.referee2???: LOPES, Raquel Vigolvino.
???metadata.dc.contributor.referee3???: BARRETO, Priscila América Solíz Mendez.
???metadata.dc.contributor.referee4???: MARTIN, André.
Keywords: Processamento de dados;Escalonamento de recursos;Teoria do controle;Data processing;Resource scaling;Control theory;Procesamiento de datos;Escalado de recursos;Teoría del control;Traitement de l'information;Mise à l'échelle des ressources;Théorie du contrôle
Issue Date: 22-Sep-2022
Publisher: Universidade Federal de Campina Grande
Citation: SAMPAIO, L. R. Applying control theory to the orchestration of data stream processing systems. 2022. 180 f. Tese (Doutorado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2022.
???metadata.dc.description.resumo???: A capacidade de processar eficientemente grandes quantidades de dados, como os advindos de sensores IoT, é um objetivo desejado por variados sistemas, especialmente porque o valor desses dados pode cair rapidamente após o momento de sua coleta. Demandas de processamento desse tipo levaram ao desenvolvimento do paradigma Data Stream Processing, onde dados chegam continuamente e precisam ser processados em tempo real. Tais aplicações estão sujeitas a variadas condições de operação, sendo importante se adaptar bem a diferentes cenários enquanto mantém metas de Qualidade de Serviço. Abordagens tradicionais sugerem soluções voltadas ao escalonamento automático dos recursos, que apresentam desafios como definir boas métricas de interesse para os objetivos de QoS, determinar o intervalo de coleta desses dados e estimar a quantidade de recursos que devem ser provisionados. Apesar de novas técnicas para o monitoramento e adaptação de sistemas de processamento de dados em fluxo estarem continuamente evoluindo, muitas das soluções propostas não possuem a base teórica necessária para garantir níveis altos de acurácia em suas execuções. Dada sua abordagem analítica, a teoria do controle pode ser uma boa alternativa para este fim. Entretanto, aplicar técnicas de controle em sistemas de computação ainda se apresenta como um desafio, principalmente pela dificuldade em abstrair o comportamento complexo de software em uma forma matemática adequada para o design de um controlador, de forma a diminuir o atraso do sistema, gerar ações corretivas adequadas e minimizar o erro de estado estável. Considerando isso, este trabalho propõe aplicar e avaliar metodologias da teoria do controle em sistemas de processamento de micro-lotes de dados em fluxo. Métodos de identificação de sistemas são utilizados para modelagem do Asperathos, um framework para automação de diferentes aplicações de processamento de dados mantendo metas de QoS customizáveis. Com base nisso, é proposto um controlador Proporcional-Integral que rastreia métricas de desempenho, além de uma demonstração de sintonização de seus ganhos. Ainda é proposto um controlador de múltiplos objetivos do tipo SIMO, baseado em métricas de desempenho e custo. Para validação da solução, tarefas de desagregação de dados de energia são executadas em um cluster Kubernetes orquestrado pelo Asperathos.
Abstract: The ability to efficiently process large amounts of data, such as that from IoT sensors, is a desired goal for many systems, especially since the value of this data can quickly drop after the moment it is collected. Processing demands of this kind led to the development of the Data Stream Processing (DSP) paradigm, where data arrives continuously and needs to be processed in real time. Such applications are subject to varying operating conditions, and it is important to adapt well to different scenarios while maintaining Quality of Service (QoS) goals. Traditional approaches suggest solutions aimed at the automatic scaling of resources, which presents challenges such as defining good metrics of interest for QoS objectives, determining the interval for collecting this data and estimating the amount of resources that must be provisioned. Although new techniques for monitoring and adapting DSP systems are continuously evolving, many of the proposed solutions do not have the necessary theoretical basis to guarantee high levels of accuracy in their execution. On the other hand, given its analytical approach, Control Theory can be a good alternative for this purpose. However, applying control techniques in computer systems still presents itself as a challenge, mainly due to the difficulty in abstracting the complex behavior of software in a mathematical form suitable for the design of a controller, in order to reduce the system delay, generate appropriate corrective actions, and minimize steady-state error. Considering this, this work proposes to apply and evaluate control theory methodologies in micro-batch DSP systems. System identification methods are used to generate a model representation of Asperathos, a framework for automating different data processing applications while maintaining customizable QoS goals. Based on this, a Proportional-Integral controller that tracks performance metrics is proposed, as well as a demonstration of its tuning. A SIMO-type multi-objective controller is also proposed, based on performance and cost metrics. For the validation of the solution, energy data disaggregation tasks are performed in a Kubernetes cluster orchestrated by Asperathos.
Keywords: Processamento de dados
Escalonamento de recursos
Teoria do controle
Data processing
Resource scaling
Control theory
Procesamiento de datos
Escalado de recursos
Teoría del control
Traitement de l'information
Mise à l'échelle des ressources
Théorie du contrôle
???metadata.dc.subject.cnpq???: Ciência da Computação
URI: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28719
Appears in Collections:Doutorado em Ciência da Computação.

Files in This Item:
File Description SizeFormat 
LÍLIA RODRIGUES SAMPAIO - TESE (PPGCC) 2022.pdf2.12 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.