Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.

Please use this identifier to cite or link to this item: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28317

Title:	Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.
Other Titles:	Contributions in the context of Information theory for processing of genomic signal. Contribuciones en el contexto de la teoría de la información al procesamiento de señales genómicas.
???metadata.dc.creator???:	ARRUDA, Milena Marinho.
???metadata.dc.contributor.advisor1???:	ASSIS, Francisco Marcos de.
???metadata.dc.contributor.referee1???:	SOUZA, Benemar Alencar de.
???metadata.dc.contributor.referee2???:	PEREIRA, Helder Alves.
???metadata.dc.contributor.referee3???:	SILVA, Danilo.
???metadata.dc.contributor.referee4???:	LA GUARDIA, Giuliano Gadioli.
???metadata.dc.contributor.referee5???:	CAVALCANTE, Charles Casimiro.
Keywords:	Eletrônica e telecomunicações;Códigos BCH;Códigos corretores de erros;Processamento de sinal genômico;Sequências de DNA;Teoria da informação e codificação;Sequências de codificação;Processamento da informação;Electronics and telecommunications;Error correcting codes;DNA sequences;Coding sequences;BCH codes;Genomic signal processing;Information theory and coding;Information processing
Issue Date:	7-Oct-2022
Publisher:	Universidade Federal de Campina Grande
Citation:	ARRUDA, Milena Marinho. Contribuições no contexto da teoria da Informação para o processamento de sinal genômico. 2022. 137 fl. Tese (Doutorado em Engenharia Elétrica), Programa de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28317
???metadata.dc.description.resumo???:	O crescimento dos bancos de dados biológicos e a necessidade de compreender como os muitos componentes presentes em uma célula viva estão interagindo e trabalhando juntos para execução de funções celulares são razões que justificam a aplicação interdisciplinar de teorias matemáticas, estatísticas e computacionais para análise e processamento da informação genômica. A informação genética de um organismo está codificada em moléculas de ácido desoxirribonucleico (DNA, do inglês: deoxyribonucleic acid) por meio de unidades denominadas bases. A análise e o processamento de sequências de DNA para obtenção de conhecimento biológico constituem o domínio deste documento de tese. A pesquisa desenvolvida visa integrar a teoria e os métodos de processamento de sinais e a teoria da informação para extração de informações genômicas. Um dos principais desafios é, portanto, definir uma regra de mapeamento para representação de sequências de DNA que estão, inicialmente, em um domínio simbólico, e levá-las para um domínio numérico. O primeiro resultado apresentado nesta tese considera um mapeamento unidimensional bijetivo para elementos de um corpo finito com o objetivo de analisar a hipótese de que o DNA está atuando como um código linear na transmissão da informação armazenada. Dessa maneira, existiria um código de correção de erros subjacente às sequências de DNA. Nesse contexto, é proposto um novo algoritmo para buscar códigos BCH cujas palavras - código estão a uma distância de Hamming no máximo unitária do vetor numérico resultante do mapeamento de uma dada sequência de DNA. Além disso, é demonstrado que as sequências de DNA estão distribuídas de maneira aproximadamente uniforme, sob a métrica de Hamming, em um espaço vetorial de dimensão n. Sendo assim, os polinômios geradores dos códigos que identificam coleções de sequências taxonomicamente próximas não fornecem informações biológicas suficientes para agrupar e classificar tais coleções. O segundo resultado apresentado foi alcançado com base na hipótese de que ao considerar um mapeamento fixo para todas as sequências de DNA não é possível garantir que as características intrínsecas de cada sequência estarão sendo devidamente extraídas. Portanto, são propostos dois novos algoritmos: SNR - SE e TBP - SE, ambos baseados na teoria de envoltória espectral para o cálculo desses mapeamentos. A aplicabilidade desses métodos no contexto da análise espectral para discriminação de sequências codificantes e não codificantes de proteínas é analisada e comparada com outros mapeamentos já consolidados na literatura. Nesse cenário, o algoritmo proposto, TBP-SE, teve a maior acurácia e sensibilidade entre todos avaliados. Destacando-se assim, uma vez que, nesta aplicação a sensibilidade é especialmente importante, pois, assim, a probabilidade de ter uma sequência de codificação que não será identificada é baixa. Além disso, o TBP - SE demonstrou bom desempenho até mesmo para detectar regiões com sequências de codificação mais curtas.
Abstract:	The growth of biological databases and the need to understand how the many components present in a living cell are interacting and working together to perform cellular functions are reasons that justify the interdisciplinary application of mathematical, statistical and computational theories for the analysis and processing of genomic information. The genetic information of an organism is encoded in deoxyribonucleic acid molecules (DNA) by means of units called bases. The analysis and processing of DNA sequences to obtain biological knowledge constitute the domain of this document. The research developed aims to integrate the theory and methods of signal processing and information theory to extract genomic information. One of the main challenges is, therefore, to define a mapping rule to represent DNA sequences that are initially in a symbolic domain, taking them to a numerical domain. The first result considers a bijective unidimensional mapping for elements of a finite field with the aim of analyzing the hypothesis that DNA is acting as a linear code in the transmission of stored information. Hence, there will be an error-correcting code underlying the DNA sequences. In this context, a new algorithm is proposed to search for BCH codes whose codewords are at a Hamming distance at most unity from the numerical vector resulting from the mapping of a given DNA sequence. Furthermore, it is shown that the DNA sequences are approximately uniformly distributed, under the Hamming metric, in a vector space of dimension n. Therefore, the genrator polynomial of the codes that identify collections of taxonomically close sequences do not provide enough biological information to group and classify them. The second result based on the hypothesis that when considering a fixed mapping for all DNA sequences, it is not possible to guarantee that the intrinsic characteristics of each sequence will be properly extracted. Therefore, two new algorithms are proposed: SNR-SE and TBP-SE, both based on the spectral envelope theory to calculate these mappings. The applicability of these methods in the context of spectral analysis to discriminate coding and non-coding sequences of proteins is analyzed and compared with other mappings already consolidated in the literature. In this scenario, the proposed algorithm, TBP-SE, had the highest accuracy and sensitivity among all evaluated. This stands out, since, in this application, sensitivity is especially important, as the probability of having a coding sequence that will not be identified is low. In addition, TBP-SE demonstrated good assertiveness even to detect regions with shorter coding sequences.
???metadata.dc.description.resumen???:	El crecimiento de las bases de datos biológicas y la necesidad de entender cómo muchos componentes presentes en una célula viva están interactuando y trabajando juntos para realizar funciones celulares son razones que justifican la aplicación interdisciplinaria teorías matemáticas, estadísticas y computacionales para el análisis y procesamiento de información genómica. La información genética de un organismo está codificada en moléculas de ácido desoxirribonucleico (ADN) a través de unidades llamadas bases. El análisis y procesamiento de secuencias de ADN para la obtención de conocimientos biológicos constituyen el dominio de este documento de tesis. A investigación desarrollada tiene como objetivo integrar la teoría y los métodos de procesamiento de señales y la teoría de la información para la extracción de información genómica. Uno de los principales retos es por lo tanto definir una regla de mapeo para representar secuencias de ADN que están, inicialmente, en un dominio simbólico, y llevarlos a un dominio numérico. El primer resultado presentado en esta tesis considera un mapeo unidimensional biyectiva para elementos de un campo finito con el fin de analizar la hipótesis de que El ADN actúa como un código lineal en la transmisión de información almacenada. De esta forma, existiría un código de corrección de errores subyacente a las secuencias de ADN. En este contexto, se propone un nuevo algoritmo para buscar códigos BCH cuyas las palabras clave están a una distancia máxima de Hamming unitaria del vector numérico resultado del mapeo de una secuencia de ADN dada. Además, se demuestra que las secuencias de ADN están distribuidas de manera aproximadamente uniforme, bajo la métrica de Hamming, en un espacio vectorial de dimensión n. Por lo tanto, la polinomios que generan los códigos que identifican taxonómicamente colecciones de secuencias proximidad no proporcionan suficiente información biológica para agrupar y clasificar tales colecciones Al segundo resultado presentado se llegó con base en la hipótesis de que cuando considere un mapeo fijo para todas las secuencias de ADN El ADN no puede garantizar que se están extrayendo debidamente las características intrínsecas de cada secuencia. Por lo tanto, se proponen dos nuevos algoritmos: SNR-SE y TBP-SE, ambos basados en la teoría de la envolvente espectral para calcular estos mapeos. La aplicabilidad de estos métodos en el contexto del análisis espectral para la discriminación de secuencias de codificación y las proteínas no codificantes se analizan y comparan con otros mapeos ya consolidado en la literatura. En este escenario, el algoritmo propuesto, TBP-SE, tuvo la mayor precisión y sensibilidad entre todos los evaluados. Esto se destaca, ya que, en este la sensibilidad de la aplicación es especialmente importante, ya que por lo tanto la probabilidad de tener una secuencia de codificación que no se identificará es bajo. además, el TBP-SE mostró un buen rendimiento incluso para detectar regiones con secuencias codificaciones más cortas.
Keywords:	Eletrônica e telecomunicações Códigos BCH Códigos corretores de erros Processamento de sinal genômico Sequências de DNA Teoria da informação e codificação Sequências de codificação Processamento da informação Electronics and telecommunications Error correcting codes DNA sequences Coding sequences BCH codes Genomic signal processing Information theory and coding Information processing
???metadata.dc.subject.cnpq???:	Engenharia Elétrica
URI:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28317
Appears in Collections:	Doutorado em Engenharia Elétrica.

Files in This Item:

File	Description	Size	Format
MILENA MARINHO ARRUDA – TESE PPGEE 2022.pdf	Milena Marinho Arruda - Tese PPGEE 2022	5.18 MB	Adobe PDF	View/Open

Show full item record