Título: | Otimização para o problema da cadeia de caracteres mais próxima |
Autor(es): | Gonçalves, Ramon Moreira |
Orientador(es): | Zörnig, Peter |
Assunto: | Biologia computacional Programação linear |
Data de apresentação: | 2022 |
Data de publicação: | 8-Mai-2023 |
Referência: | GONÇALVES, Ramon Moreira. Otimização para o problema da cadeia de caracteres mais próxima. 2022. 28 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística) — Universidade de Brasília, Brasília, 2022. |
Resumo: | Este trabalho aborda o Problema da Cadeia de Caracteres Mais Próxima (PCCP)
- Closest String Problem (CSP). O objetivo do problema ´e encontrar uma cadeia
de caracteres que minimiza a máxima distancia para um conjunto de cadeias com
mesmo comprimento e alfabeto fixo. A métrica utilizada é a distancia de Hamming,
que ´e definida como o número de posições nas quais duas sequencias diferem. O
CSP tem muitas aplicações, principalmente na biologia computacional e na teoria
dos códigos. O objetivo dessa dissertação é implementar dois modelos presentes na
literatura que buscam solucionar o CSP por meio de programação linear inteira, e
então verificar as vantagens de um modelo em relação ao outro. O primeiro modelo
aparece em Meneses et al. (2004, sec. 2.4) e também em Festa (2007, p. 228). Já o
segundo modelo ´e proposto por Zornig (2011, p. 5612). Para verificar qual modelo
´e melhor, foram feitas simulações com diversos comprimentos de sequencias, a fim
de observar o número de restrições e variáveis nos modelos. O segundo modelo
se saiu melhor nos testes, pois o número de restrições e variáveis não depende do
comprimento das sequencias.
Palavras-chave: Problema da Cadeia de Caracteres Mais Próxima, Distancia
de Hamming, Relaxamento LP, Teoria dos códigos, Biologia Computacional. |
Abstract: | This work addresses the Closest String Problem (CSP). The purpose of the
problem is to find a string of characters that minimizes the maximum distance for a
set of strings with same length and fixed alphabet.The metric used is the Hamming
distance, which is defined as the number of positions at which two sequences differ.
The CSP has many applications, mainly in computational biology and theory of
codes. The objective of this dissertation is to implement two models present in
the literature that seek to solve the CSP through integer linear programming, and
then check the advantages of one model over the other.The first model appears in
Meneses et al. (2004, sec. 2.4) and also in Festa (2007, p. 228). The second model
is proposed by Z¨ornig (2011, p. 5612). To verify which model is better, simulations
were performed with different sequence lengths, in order to observe the number of
constraints and variables in the models. The second model performed better in the
tests, as the number of constraints and variables do not depend on the length of the
sequences. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Departamento de Estatística, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Estatística
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.