Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/17059

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2016_DanielDantasSantos_tcc.pdf		3,2 MB	Adobe PDF	ver/abrir

Título:	Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest
Autor(es):	Santos, Daniel Dantas Nascimento dos
Orientador(es):	Walter, Maria Emilia Machado Telles
Assunto:	RNAs não-codificadores Algoritmos Aprendizado do computador
Data de apresentação:	8-Dez-2016
Data de publicação:	29-Mai-2017
Referência:	SANTOS, Daniel Dantas Nascimento dos. Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest. 2016. x, 105 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016.
Resumo:	RNAs não-codificantes longos (lncRNAs) são uma classe grande e diversificada de moléculas de RNAs não-codificadores (ncRNAs) com um comprimento de mais de 200 nucleotídeos. LncRNAs tem pouca capacidade de codificar proteínas. Muitos estudos confirmam que o genoma humano contém milhares de lncRNAs que estão envolvidos na regulação de genes e em diversos outros fenômenos nos mecanismos celulares. A identificação e classificação de ncRNAs não é simples, não sendo ainda conhecidas características determinantes para identificar e classificar ncRNAs. Com o advento das tecnologias de sequenciamento avançadas, grande quantidade de sequências não foram ainda analisadas. Neste trabalho, avaliamos características que podem ser utilizadas em métodos de aprendizagem de máquina para predizer lncRNAs. Em particular, usamos o Random Forest por ser um dos algoritmos de aprendizagem de máquina mais precisos disponíveis. Além disso, fornece estimativas de quais variáveis são importantes na classificação. Foi desenvolvido um estudo de caso para calcular a performance do modelo proposto para o Homo sapiens (humano). Neste trabalho, além de mostrar que o Random Forest é um algoritmo apropriado para construção de modelos preditivos, apresentando boa acurácia ao predizer transcritos de lncRNAs e PCTs corretamente, características que podem ser importantes para a classificação dos lncRNAs foram identificadas.
Abstract:	Long non-coding RNAs (lncRNAs) are a large and diverse class of ncRNA molecules with a length of more than 200 nucleotides. LncRNAs have little ability to encode proteins. Many studies confirm that the human genome contains thousands of lncRNAs that are involved in the regulation of genes and in several other cellular mechanical phenomena. The identification and classification of ncRNAs is not simple, and determinant characteristics to identify and classify ncRNAs are not yet known. With the advent of high-through sequencing technologies, a large number of sequences were not yet analyzed. This research evaluates features that can be used in machine learning methods to predict lncRNAs. In particular, Random Forest was used as it provides one of the most accurate machine learning algorithms available. Moreover, it estimates of which variables are important to classification. A case study was developed to measure the performance of the proposed model for the Homo sapiens (human). In this work, besides showing that Random Forest is an appropriate algorithm for constructing predictive models while accurately predicting both lncRNAs and PCTs transcripts, characteristics that may be important for the classification of the lncRNAs were identified.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.
Aparece na Coleção:	Engenharia da Computação

Mostrar item em formato completo Recomendar este item Visualizar estatísticas

Este item está licenciado na Licença Creative Commons