DSpace/Manakin Repository

Contribuições no contexto da teoria da Informação para o processamento de sinal genômico.

Mostrar registro simples

dc.creator.ID ARRUDA, M. M. pt_BR
dc.creator.ID ARRUDA, MILENA M. pt_BR
dc.creator.Lattes http://lattes.cnpq.br/3299838657781132 pt_BR
dc.contributor.advisor1 ASSIS, Francisco Marcos de.
dc.contributor.advisor1ID ASSIS, F. M. pt_BR
dc.contributor.advisor1ID F. M. de Assis. pt_BR
dc.contributor.advisor1ID DE ASSIS, FRANCISCO M. pt_BR
dc.contributor.advisor1Lattes http://lattes.cnpq.br/2368523362272656 pt_BR
dc.contributor.referee1 SOUZA, Benemar Alencar de.
dc.contributor.referee1ID SOUZA, B. A. pt_BR
dc.contributor.referee1ID DE SOUZA, BENEMAR ALENCAR. pt_BR
dc.contributor.referee1ID DE SOUZA, B. A. pt_BR
dc.contributor.referee1Lattes http://lattes.cnpq.br/4987294390789975 pt_BR
dc.contributor.referee2 PEREIRA, Helder Alves.
dc.contributor.referee2ID PEREIRA, H. A pt_BR
dc.contributor.referee2ID PEREIRA, HELDER. pt_BR
dc.contributor.referee2Lattes http://lattes.cnpq.br/7393937425520096 pt_BR
dc.contributor.referee3 SILVA, Danilo.
dc.contributor.referee3ID SILVA, D. pt_BR
dc.contributor.referee3Lattes http://lattes.cnpq.br/1809239078505173 pt_BR
dc.contributor.referee4 LA GUARDIA, Giuliano Gadioli.
dc.contributor.referee4ID LA GUARDIA, G. G. pt_BR
dc.contributor.referee4ID LA GUARDIA, GIULIANO G. pt_BR
dc.contributor.referee4Lattes http://lattes.cnpq.br/1417494604246941 pt_BR
dc.contributor.referee5 CAVALCANTE, Charles Casimiro.
dc.contributor.referee5ID CAVALCANTE, C. C. pt_BR
dc.contributor.referee5ID CAVALCANTE, CHARLES C. pt_BR
dc.contributor.referee5Lattes http://lattes.cnpq.br/4751699166195344 pt_BR
dc.description.resumo O crescimento dos bancos de dados biológicos e a necessidade de compreender como os muitos componentes presentes em uma célula viva estão interagindo e trabalhando juntos para execução de funções celulares são razões que justificam a aplicação interdisciplinar de teorias matemáticas, estatísticas e computacionais para análise e processamento da informação genômica. A informação genética de um organismo está codificada em moléculas de ácido desoxirribonucleico (DNA, do inglês: deoxyribonucleic acid) por meio de unidades denominadas bases. A análise e o processamento de sequências de DNA para obtenção de conhecimento biológico constituem o domínio deste documento de tese. A pesquisa desenvolvida visa integrar a teoria e os métodos de processamento de sinais e a teoria da informação para extração de informações genômicas. Um dos principais desafios é, portanto, definir uma regra de mapeamento para representação de sequências de DNA que estão, inicialmente, em um domínio simbólico, e levá-las para um domínio numérico. O primeiro resultado apresentado nesta tese considera um mapeamento unidimensional bijetivo para elementos de um corpo finito com o objetivo de analisar a hipótese de que o DNA está atuando como um código linear na transmissão da informação armazenada. Dessa maneira, existiria um código de correção de erros subjacente às sequências de DNA. Nesse contexto, é proposto um novo algoritmo para buscar códigos BCH cujas palavras - código estão a uma distância de Hamming no máximo unitária do vetor numérico resultante do mapeamento de uma dada sequência de DNA. Além disso, é demonstrado que as sequências de DNA estão distribuídas de maneira aproximadamente uniforme, sob a métrica de Hamming, em um espaço vetorial de dimensão n. Sendo assim, os polinômios geradores dos códigos que identificam coleções de sequências taxonomicamente próximas não fornecem informações biológicas suficientes para agrupar e classificar tais coleções. O segundo resultado apresentado foi alcançado com base na hipótese de que ao considerar um mapeamento fixo para todas as sequências de DNA não é possível garantir que as características intrínsecas de cada sequência estarão sendo devidamente extraídas. Portanto, são propostos dois novos algoritmos: SNR - SE e TBP - SE, ambos baseados na teoria de envoltória espectral para o cálculo desses mapeamentos. A aplicabilidade desses métodos no contexto da análise espectral para discriminação de sequências codificantes e não codificantes de proteínas é analisada e comparada com outros mapeamentos já consolidados na literatura. Nesse cenário, o algoritmo proposto, TBP-SE, teve a maior acurácia e sensibilidade entre todos avaliados. Destacando-se assim, uma vez que, nesta aplicação a sensibilidade é especialmente importante, pois, assim, a probabilidade de ter uma sequência de codificação que não será identificada é baixa. Além disso, o TBP - SE demonstrou bom desempenho até mesmo para detectar regiões com sequências de codificação mais curtas. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department Centro de Engenharia Elétrica e Informática - CEEI pt_BR
dc.publisher.program PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA pt_BR
dc.publisher.initials UFCG pt_BR
dc.subject.cnpq Engenharia Elétrica pt_BR
dc.title Contribuições no contexto da teoria da Informação para o processamento de sinal genômico. pt_BR
dc.date.issued 2022-10-07
dc.description.abstract The growth of biological databases and the need to understand how the many components present in a living cell are interacting and working together to perform cellular functions are reasons that justify the interdisciplinary application of mathematical, statistical and computational theories for the analysis and processing of genomic information. The genetic information of an organism is encoded in deoxyribonucleic acid molecules (DNA) by means of units called bases. The analysis and processing of DNA sequences to obtain biological knowledge constitute the domain of this document. The research developed aims to integrate the theory and methods of signal processing and information theory to extract genomic information. One of the main challenges is, therefore, to define a mapping rule to represent DNA sequences that are initially in a symbolic domain, taking them to a numerical domain. The first result considers a bijective unidimensional mapping for elements of a finite field with the aim of analyzing the hypothesis that DNA is acting as a linear code in the transmission of stored information. Hence, there will be an error-correcting code underlying the DNA sequences. In this context, a new algorithm is proposed to search for BCH codes whose codewords are at a Hamming distance at most unity from the numerical vector resulting from the mapping of a given DNA sequence. Furthermore, it is shown that the DNA sequences are approximately uniformly distributed, under the Hamming metric, in a vector space of dimension n. Therefore, the genrator polynomial of the codes that identify collections of taxonomically close sequences do not provide enough biological information to group and classify them. The second result based on the hypothesis that when considering a fixed mapping for all DNA sequences, it is not possible to guarantee that the intrinsic characteristics of each sequence will be properly extracted. Therefore, two new algorithms are proposed: SNR-SE and TBP-SE, both based on the spectral envelope theory to calculate these mappings. The applicability of these methods in the context of spectral analysis to discriminate coding and non-coding sequences of proteins is analyzed and compared with other mappings already consolidated in the literature. In this scenario, the proposed algorithm, TBP-SE, had the highest accuracy and sensitivity among all evaluated. This stands out, since, in this application, sensitivity is especially important, as the probability of having a coding sequence that will not be identified is low. In addition, TBP-SE demonstrated good assertiveness even to detect regions with shorter coding sequences. pt_BR
dc.identifier.uri http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28317
dc.date.accessioned 2022-12-13T17:44:04Z
dc.date.available 2022-12-13
dc.date.available 2022-12-13T17:44:04Z
dc.type Tese pt_BR
dc.subject Eletrônica e telecomunicações pt_BR
dc.subject Códigos BCH pt_BR
dc.subject Códigos corretores de erros pt_BR
dc.subject Processamento de sinal genômico pt_BR
dc.subject Sequências de DNA pt_BR
dc.subject Teoria da informação e codificação pt_BR
dc.subject Sequências de codificação pt_BR
dc.subject Processamento da informação pt_BR
dc.subject Electronics and telecommunications pt_BR
dc.subject Error correcting codes pt_BR
dc.subject DNA sequences pt_BR
dc.subject Coding sequences pt_BR
dc.subject BCH codes pt_BR
dc.subject Genomic signal processing pt_BR
dc.subject Information theory and coding pt_BR
dc.subject Information processing pt_BR
dc.rights Acesso Aberto pt_BR
dc.creator ARRUDA, Milena Marinho.
dc.publisher Universidade Federal de Campina Grande pt_BR
dc.language por pt_BR
dc.title.alternative Contributions in the context of Information theory for processing of genomic signal. pt_BR
dc.title.alternative Contribuciones en el contexto de la teoría de la información al procesamiento de señales genómicas.
dc.identifier.citation ARRUDA, Milena Marinho. Contribuições no contexto da teoria da Informação para o processamento de sinal genômico. 2022. 137 fl. Tese (Doutorado em Engenharia Elétrica), Programa de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/28317 pt_BR
dc.description.resumen El crecimiento de las bases de datos biológicas y la necesidad de entender cómo muchos componentes presentes en una célula viva están interactuando y trabajando juntos para realizar funciones celulares son razones que justifican la aplicación interdisciplinaria teorías matemáticas, estadísticas y computacionales para el análisis y procesamiento de información genómica. La información genética de un organismo está codificada en moléculas de ácido desoxirribonucleico (ADN) a través de unidades llamadas bases. El análisis y procesamiento de secuencias de ADN para la obtención de conocimientos biológicos constituyen el dominio de este documento de tesis. A investigación desarrollada tiene como objetivo integrar la teoría y los métodos de procesamiento de señales y la teoría de la información para la extracción de información genómica. Uno de los principales retos es por lo tanto definir una regla de mapeo para representar secuencias de ADN que están, inicialmente, en un dominio simbólico, y llevarlos a un dominio numérico. El primer resultado presentado en esta tesis considera un mapeo unidimensional biyectiva para elementos de un campo finito con el fin de analizar la hipótesis de que El ADN actúa como un código lineal en la transmisión de información almacenada. De esta forma, existiría un código de corrección de errores subyacente a las secuencias de ADN. En este contexto, se propone un nuevo algoritmo para buscar códigos BCH cuyas las palabras clave están a una distancia máxima de Hamming unitaria del vector numérico resultado del mapeo de una secuencia de ADN dada. Además, se demuestra que las secuencias de ADN están distribuidas de manera aproximadamente uniforme, bajo la métrica de Hamming, en un espacio vectorial de dimensión n. Por lo tanto, la polinomios que generan los códigos que identifican taxonómicamente colecciones de secuencias proximidad no proporcionan suficiente información biológica para agrupar y clasificar tales colecciones Al segundo resultado presentado se llegó con base en la hipótesis de que cuando considere un mapeo fijo para todas las secuencias de ADN El ADN no puede garantizar que se están extrayendo debidamente las características intrínsecas de cada secuencia. Por lo tanto, se proponen dos nuevos algoritmos: SNR-SE y TBP-SE, ambos basados ​​en la teoría de la envolvente espectral para calcular estos mapeos. La aplicabilidad de estos métodos en el contexto del análisis espectral para la discriminación de secuencias de codificación y las proteínas no codificantes se analizan y comparan con otros mapeos ya consolidado en la literatura. En este escenario, el algoritmo propuesto, TBP-SE, tuvo la mayor precisión y sensibilidad entre todos los evaluados. Esto se destaca, ya que, en este la sensibilidad de la aplicación es especialmente importante, ya que por lo tanto la probabilidad de tener una secuencia de codificación que no se identificará es bajo. además, el TBP-SE mostró un buen rendimiento incluso para detectar regiones con secuencias codificaciones más cortas.


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar DSpace


Busca avançada

Navegar

Minha conta