Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/36320
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2023_AnaLuisaSalvadorAlvarez_tcc.pdf1,38 MBAdobe PDFver/abrir
Título: Classificação de RNA telomerase usando extração de características e técnicas de aprendizado de máquina
Autor(es): Alvarez, Ana Luísa Salvador
Orientador(es): Walter, Maria Emilia Machado Telles
Assunto: RNAs não-codificadores
Bioinformática
Aprendizado de máquina
Data de apresentação: 24-Fev-2023
Data de publicação: 6-Out-2023
Referência: ALVAREZ, Ana Luísa Salvador. Classificação de RNA telomerase usando extração de características e técnicas de aprendizado de máquina. 2023. 70 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2023.
Resumo: A detecção de RNA telomerase por métodos de Biologia Molecular e de Bioinformática vem se mostrando extremamente difícil, devido à variabilidade na sua sequência genômica e na sua estrutura nas diferentes espécies de organismos. Esse problema é importante pois a RNA telomerase é considerável para a saúde e longevidade humanas e sua predição é de grande interesse científico. Por outro lado, como o uso de técnicas de aprendizado de máquina vem mostrando bons resultados para a classificação de DNA e de RNA, neste trabalho, utilizamos modelos obtidos com essas técnicas para verificar se poderiam ser utilizados para a classificação de RNA telomerase. Neste contexto, este trabalho propõe métodos baseados em aprendizado de máquina supervisionado para classificar a RNA telomerase. Foram obtidos modelos de classificação de RNA telomerase usando quatro algoritmos de aprendizado de máquina supervisionados: Random Forest (RF), Naive Bayes Gaussiano (NBG), Naive Bayes de Bernoulli (NBB) e Máquina de Vetor de Suporte, ou Suport Vector Machine (SVM), com uma etapa anterior de uso de métodos de extração de características (em inglês, features): transformada de Fourier com representação real (FR), curva-z (FZ) e pseudopotencial de interação elétron-ion (EIIP); e Redes Complexas (RC). Os resultados atingidos a partir dos modelos obtidos foram avaliados usando as métricas tradicionais de aprendizado de máquina. Foram testados dezesseis (16) modelos para classificar RNA telomerase, considerando os métodos de aprendizado de máquina e de extração de características. Os quatro melhores modelos, segundo a métrica de F1- score, foram os modelos baseados em Random Forest com extração de características por transformada de Fourier com representação real (RF FR), por Redes Complexas (RF RC) e por pseudopotencial de interação elétron-íon (RF EIIP); e Naive Bayes Gaussiano com extração de características por transformada de Fourier com representação real (NBG FR). Entre eles, obtiveram resultados menos satisfatórios RF RC e NBG FR, considerando-se os verdadeiros positivos, que são de maior interesse para esse estudo.
Abstract: Detecting telomerase RNA by Molecular Biology and Bioinformatics has been proving to be extremely difficult, due to the variability in its genomic sequence and structure in different species of organisms. This is a significant problem since telomerase RNA is important to human health and longevity and its prediction is of great scientific interest. And since the use of machine learning techniques is presenting good results in classi- fying DNA and RNA, in this work we used models obtained with those machine learning techniques to verify if they could be used to telomerase RNA classification. In this con- text, this work suggests methods based on supervised Machine Learning algorithms to classify telomerase RNA. Telomerase RNA classification models were obtained by the use of four Machine Learing algorithms: Random Forest, Gaussian Naive Bayes Gaussiano, Bernoulli Naive Bayes de Bernoulli and Suport Vector Machine, with an anterior step of feature extraction: Fourier transform with real representation, z-curve and electron-ion interection pseudopotential; and Complex Network. The results achieved from the models obtained were evaluated by Machine Learning traditional metrics. Sixteen (16) models for telomerase RNA classification, considering Machine Learning methods and feature extraction. The best four models, according to F1-score metric, were the ones based on Random Forest, with Fourier transform and real representation feature extraction, with Complex Network feature extraction and with electron-ion interaction pseudopotential feature extraction; and Gaussian Naive Bayes with Fourier transform and real represen- tation feature extraction. Among them, the least satisfactory results were obtained by Random Forest with Complex Network and Gaussian Naive Bayes with Fourier transform and real representation, when we considered true positive results,that are of most interest to this study.
Informações adicionais: Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Ciência da Computação



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.