Título: | Classificação de RNA telomerase usando extração de características e técnicas de aprendizado de máquina |
Autor(es): | Alvarez, Ana Luísa Salvador |
Orientador(es): | Walter, Maria Emilia Machado Telles |
Assunto: | RNAs não-codificadores Bioinformática Aprendizado de máquina |
Data de apresentação: | 24-Fev-2023 |
Data de publicação: | 6-Out-2023 |
Referência: | ALVAREZ, Ana Luísa Salvador. Classificação de RNA telomerase usando extração de características e técnicas de aprendizado de máquina. 2023. 70 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2023. |
Resumo: | A detecção de RNA telomerase por métodos de Biologia Molecular e de Bioinformática
vem se mostrando extremamente difícil, devido à variabilidade na sua sequência genômica
e na sua estrutura nas diferentes espécies de organismos. Esse problema é importante pois
a RNA telomerase é considerável para a saúde e longevidade humanas e sua predição é
de grande interesse científico. Por outro lado, como o uso de técnicas de aprendizado de
máquina vem mostrando bons resultados para a classificação de DNA e de RNA, neste
trabalho, utilizamos modelos obtidos com essas técnicas para verificar se poderiam ser
utilizados para a classificação de RNA telomerase. Neste contexto, este trabalho propõe
métodos baseados em aprendizado de máquina supervisionado para classificar a RNA
telomerase. Foram obtidos modelos de classificação de RNA telomerase usando quatro
algoritmos de aprendizado de máquina supervisionados: Random Forest (RF), Naive
Bayes Gaussiano (NBG), Naive Bayes de Bernoulli (NBB) e Máquina de Vetor de Suporte,
ou Suport Vector Machine (SVM), com uma etapa anterior de uso de métodos de extração
de características (em inglês, features): transformada de Fourier com representação real
(FR), curva-z (FZ) e pseudopotencial de interação elétron-ion (EIIP); e Redes Complexas
(RC). Os resultados atingidos a partir dos modelos obtidos foram avaliados usando as
métricas tradicionais de aprendizado de máquina. Foram testados dezesseis (16) modelos
para classificar RNA telomerase, considerando os métodos de aprendizado de máquina e
de extração de características. Os quatro melhores modelos, segundo a métrica de F1-
score, foram os modelos baseados em Random Forest com extração de características por
transformada de Fourier com representação real (RF FR), por Redes Complexas (RF RC)
e por pseudopotencial de interação elétron-íon (RF EIIP); e Naive Bayes Gaussiano com
extração de características por transformada de Fourier com representação real (NBG FR).
Entre eles, obtiveram resultados menos satisfatórios RF RC e NBG FR, considerando-se
os verdadeiros positivos, que são de maior interesse para esse estudo. |
Abstract: | Detecting telomerase RNA by Molecular Biology and Bioinformatics has been proving
to be extremely difficult, due to the variability in its genomic sequence and structure
in different species of organisms. This is a significant problem since telomerase RNA is
important to human health and longevity and its prediction is of great scientific interest.
And since the use of machine learning techniques is presenting good results in classi-
fying DNA and RNA, in this work we used models obtained with those machine learning
techniques to verify if they could be used to telomerase RNA classification. In this con-
text, this work suggests methods based on supervised Machine Learning algorithms to
classify telomerase RNA. Telomerase RNA classification models were obtained by the use
of four Machine Learing algorithms: Random Forest, Gaussian Naive Bayes Gaussiano,
Bernoulli Naive Bayes de Bernoulli and Suport Vector Machine, with an anterior step of
feature extraction: Fourier transform with real representation, z-curve and electron-ion
interection pseudopotential; and Complex Network. The results achieved from the models
obtained were evaluated by Machine Learning traditional metrics. Sixteen (16) models
for telomerase RNA classification, considering Machine Learning methods and feature
extraction. The best four models, according to F1-score metric, were the ones based on
Random Forest, with Fourier transform and real representation feature extraction, with
Complex Network feature extraction and with electron-ion interaction pseudopotential
feature extraction; and Gaussian Naive Bayes with Fourier transform and real represen-
tation feature extraction. Among them, the least satisfactory results were obtained by
Random Forest with Complex Network and Gaussian Naive Bayes with Fourier transform
and real representation, when we considered true positive results,that are of most interest
to this study. |
Informações adicionais: | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Ciência da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.