Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.

Página inicial
→
Campus Campina Grande | Centro de Engenharia Elétrica e Informática - CEEI
→
PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
→
Doutorado em Engenharia Elétrica.
→
Ver item

dc.creator.ID	ARRUDA, M. M.	pt_BR
dc.creator.ID	ARRUDA, MILENA M.	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/3299838657781132	pt_BR
dc.contributor.advisor1	ASSIS, Francisco Marcos de.
dc.contributor.advisor1ID	ASSIS, F. M.	pt_BR
dc.contributor.advisor1ID	F. M. de Assis.	pt_BR
dc.contributor.advisor1ID	DE ASSIS, FRANCISCO M.	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2368523362272656	pt_BR
dc.contributor.referee1	SOUZA, Benemar Alencar de.
dc.contributor.referee1ID	SOUZA, B. A.	pt_BR
dc.contributor.referee1ID	DE SOUZA, BENEMAR ALENCAR.	pt_BR
dc.contributor.referee1ID	DE SOUZA, B. A.	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/4987294390789975	pt_BR
dc.contributor.referee2	PEREIRA, Helder Alves.
dc.contributor.referee2ID	PEREIRA, H. A	pt_BR
dc.contributor.referee2ID	PEREIRA, HELDER.	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/7393937425520096	pt_BR
dc.contributor.referee3	SILVA, Danilo.
dc.contributor.referee3ID	SILVA, D.	pt_BR
dc.contributor.referee3Lattes	http://lattes.cnpq.br/1809239078505173	pt_BR
dc.contributor.referee4	LA GUARDIA, Giuliano Gadioli.
dc.contributor.referee4ID	LA GUARDIA, G. G.	pt_BR
dc.contributor.referee4ID	LA GUARDIA, GIULIANO G.	pt_BR
dc.contributor.referee4Lattes	http://lattes.cnpq.br/1417494604246941	pt_BR
dc.contributor.referee5	CAVALCANTE, Charles Casimiro.
dc.contributor.referee5ID	CAVALCANTE, C. C.	pt_BR
dc.contributor.referee5ID	CAVALCANTE, CHARLES C.	pt_BR
dc.contributor.referee5Lattes	http://lattes.cnpq.br/4751699166195344	pt_BR
dc.description.resumo	O crescimento dos bancos de dados biológicos e a necessidade de compreender como os muitos componentes presentes em uma célula viva estão interagindo e trabalhando juntos para execução de funções celulares são razões que justificam a aplicação interdisciplinar de teorias matemáticas, estatísticas e computacionais para análise e processamento da informação genômica. A informação genética de um organismo está codificada em moléculas de ácido desoxirribonucleico (DNA, do inglês: deoxyribonucleic acid) por meio de unidades denominadas bases. A análise e o processamento de sequências de DNA para obtenção de conhecimento biológico constituem o domínio deste documento de tese. A pesquisa desenvolvida visa integrar a teoria e os métodos de processamento de sinais e a teoria da informação para extração de informações genômicas. Um dos principais desafios é, portanto, definir uma regra de mapeamento para representação de sequências de DNA que estão, inicialmente, em um domínio simbólico, e levá-las para um domínio numérico. O primeiro resultado apresentado nesta tese considera um mapeamento unidimensional bijetivo para elementos de um corpo finito com o objetivo de analisar a hipótese de que o DNA está atuando como um código linear na transmissão da informação armazenada. Dessa maneira, existiria um código de correção de erros subjacente às sequências de DNA. Nesse contexto, é proposto um novo algoritmo para buscar códigos BCH cujas palavras - código estão a uma distância de Hamming no máximo unitária do vetor numérico resultante do mapeamento de uma dada sequência de DNA. Além disso, é demonstrado que as sequências de DNA estão distribuídas de maneira aproximadamente uniforme, sob a métrica de Hamming, em um espaço vetorial de dimensão n. Sendo assim, os polinômios geradores dos códigos que identificam coleções de sequências taxonomicamente próximas não fornecem informações biológicas suficientes para agrupar e classificar tais coleções. O segundo resultado apresentado foi alcançado com base na hipótese de que ao considerar um mapeamento fixo para todas as sequências de DNA não é possível garantir que as características intrínsecas de cada sequência estarão sendo devidamente extraídas. Portanto, são propostos dois novos algoritmos: SNR - SE e TBP - SE, ambos baseados na teoria de envoltória espectral para o cálculo desses mapeamentos. A aplicabilidade desses métodos no contexto da análise espectral para discriminação de sequências codificantes e não codificantes de proteínas é analisada e comparada com outros mapeamentos já consolidados na literatura. Nesse cenário, o algoritmo proposto, TBP-SE, teve a maior acurácia e sensibilidade entre todos avaliados. Destacando-se assim, uma vez que, nesta aplicação a sensibilidade é especialmente importante, pois, assim, a probabilidade de ter uma sequência de codificação que não será identificada é baixa. Além disso, o TBP - SE demonstrou bom desempenho até mesmo para detectar regiões com sequências de codificação mais curtas.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Centro de Engenharia Elétrica e Informática - CEEI	pt_BR
dc.publisher.program	PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA	pt_BR
dc.publisher.initials	UFCG	pt_BR
dc.subject.cnpq	Engenharia Elétrica	pt_BR
dc.title	Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.	pt_BR
dc.date.issued	2022-10-07
dc.description.abstract	The growth of biological databases and the need to understand how the many components present in a living cell are interacting and working together to perform cellular functions are reasons that justify the interdisciplinary application of mathematical, statistical and computational theories for the analysis and processing of genomic information. The genetic information of an organism is encoded in deoxyribonucleic acid molecules (DNA) by means of units called bases. The analysis and processing of DNA sequences to obtain biological knowledge constitute the domain of this document. The research developed aims to integrate the theory and methods of signal processing and information theory to extract genomic information. One of the main challenges is, therefore, to define a mapping rule to represent DNA sequences that are initially in a symbolic domain, taking them to a numerical domain. The first result considers a bijective unidimensional mapping for elements of a finite field with the aim of analyzing the hypothesis that DNA is acting as a linear code in the transmission of stored information. Hence, there will be an error-correcting code underlying the DNA sequences. In this context, a new algorithm is proposed to search for BCH codes whose codewords are at a Hamming distance at most unity from the numerical vector resulting from the mapping of a given DNA sequence. Furthermore, it is shown that the DNA sequences are approximately uniformly distributed, under the Hamming metric, in a vector space of dimension n. Therefore, the genrator polynomial of the codes that identify collections of taxonomically close sequences do not provide enough biological information to group and classify them. The second result based on the hypothesis that when considering a fixed mapping for all DNA sequences, it is not possible to guarantee that the intrinsic characteristics of each sequence will be properly extracted. Therefore, two new algorithms are proposed: SNR-SE and TBP-SE, both based on the spectral envelope theory to calculate these mappings. The applicability of these methods in the context of spectral analysis to discriminate coding and non-coding sequences of proteins is analyzed and compared with other mappings already consolidated in the literature. In this scenario, the proposed algorithm, TBP-SE, had the highest accuracy and sensitivity among all evaluated. This stands out, since, in this application, sensitivity is especially important, as the probability of having a coding sequence that will not be identified is low. In addition, TBP-SE demonstrated good assertiveness even to detect regions with shorter coding sequences.	pt_BR
dc.identifier.uri	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28317
dc.date.accessioned	2022-12-13T17:44:04Z
dc.date.available	2022-12-13
dc.date.available	2022-12-13T17:44:04Z
dc.type	Tese	pt_BR
dc.subject	Eletrônica e telecomunicações	pt_BR
dc.subject	Códigos BCH	pt_BR
dc.subject	Códigos corretores de erros	pt_BR
dc.subject	Processamento de sinal genômico	pt_BR
dc.subject	Sequências de DNA	pt_BR
dc.subject	Teoria da informação e codificação	pt_BR
dc.subject	Sequências de codificação	pt_BR
dc.subject	Processamento da informação	pt_BR
dc.subject	Electronics and telecommunications	pt_BR
dc.subject	Error correcting codes	pt_BR
dc.subject	DNA sequences	pt_BR
dc.subject	Coding sequences	pt_BR
dc.subject	BCH codes	pt_BR
dc.subject	Genomic signal processing	pt_BR
dc.subject	Information theory and coding	pt_BR
dc.subject	Information processing	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.creator	ARRUDA, Milena Marinho.
dc.publisher	Universidade Federal de Campina Grande	pt_BR
dc.language	por	pt_BR
dc.title.alternative	Contributions in the context of Information theory for processing of genomic signal.	pt_BR
dc.title.alternative	Contribuciones en el contexto de la teoría de la información al procesamiento de señales genómicas.
dc.identifier.citation	ARRUDA, Milena Marinho. Contribuições no contexto da teoria da Informação para o processamento de sinal genômico. 2022. 137 fl. Tese (Doutorado em Engenharia Elétrica), Programa de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28317	pt_BR
dc.description.resumen	El crecimiento de las bases de datos biológicas y la necesidad de entender cómo muchos componentes presentes en una célula viva están interactuando y trabajando juntos para realizar funciones celulares son razones que justifican la aplicación interdisciplinaria teorías matemáticas, estadísticas y computacionales para el análisis y procesamiento de información genómica. La información genética de un organismo está codificada en moléculas de ácido desoxirribonucleico (ADN) a través de unidades llamadas bases. El análisis y procesamiento de secuencias de ADN para la obtención de conocimientos biológicos constituyen el dominio de este documento de tesis. A investigación desarrollada tiene como objetivo integrar la teoría y los métodos de procesamiento de señales y la teoría de la información para la extracción de información genómica. Uno de los principales retos es por lo tanto definir una regla de mapeo para representar secuencias de ADN que están, inicialmente, en un dominio simbólico, y llevarlos a un dominio numérico. El primer resultado presentado en esta tesis considera un mapeo unidimensional biyectiva para elementos de un campo finito con el fin de analizar la hipótesis de que El ADN actúa como un código lineal en la transmisión de información almacenada. De esta forma, existiría un código de corrección de errores subyacente a las secuencias de ADN. En este contexto, se propone un nuevo algoritmo para buscar códigos BCH cuyas las palabras clave están a una distancia máxima de Hamming unitaria del vector numérico resultado del mapeo de una secuencia de ADN dada. Además, se demuestra que las secuencias de ADN están distribuidas de manera aproximadamente uniforme, bajo la métrica de Hamming, en un espacio vectorial de dimensión n. Por lo tanto, la polinomios que generan los códigos que identifican taxonómicamente colecciones de secuencias proximidad no proporcionan suficiente información biológica para agrupar y clasificar tales colecciones Al segundo resultado presentado se llegó con base en la hipótesis de que cuando considere un mapeo fijo para todas las secuencias de ADN El ADN no puede garantizar que se están extrayendo debidamente las características intrínsecas de cada secuencia. Por lo tanto, se proponen dos nuevos algoritmos: SNR-SE y TBP-SE, ambos basados en la teoría de la envolvente espectral para calcular estos mapeos. La aplicabilidad de estos métodos en el contexto del análisis espectral para la discriminación de secuencias de codificación y las proteínas no codificantes se analizan y comparan con otros mapeos ya consolidado en la literatura. En este escenario, el algoritmo propuesto, TBP-SE, tuvo la mayor precisión y sensibilidad entre todos los evaluados. Esto se destaca, ya que, en este la sensibilidad de la aplicación es especialmente importante, ya que por lo tanto la probabilidad de tener una secuencia de codificación que no se identificará es bajo. además, el TBP-SE mostró un buen rendimiento incluso para detectar regiones con secuencias codificaciones más cortas.