Título: | Classificação de RNAs não-codificadores longos intergênicos usando máquina de vetores de suporte : um estudo de caso para a cana-de-açúcar |
Autor(es): | Vieira, Lucas Maciel |
Orientador(es): | Walter, Maria Emilia Machado Telles |
Assunto: | RNAs não-codificadores Biologia computacional Máquinas de suporte vetorial Bioinformática |
Data de apresentação: | 2016 |
Data de publicação: | 29-Jul-2016 |
Referência: | VIEIRA, Lucas Maciel. Classificação de RNAs não-codificadores longos intergênicos usando máquina de vetores de suporte: um estudo de caso para a cana-de-açúcar. 2016. xii, 74 f., il. Monografia (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2016. |
Resumo: | Dentre os RNAs, temos os que expressam proteínas, e aqueles que, embora não participando
da síntese proteica, realizam funções importantes nas células, sendo denominados
de RNAs não-codificadores (ncRNAs). Dentre os ncRNAs, existem os RNAs nãocodificadores
longos intergênicos (long intergenic ncRNAs - lincRNAs), que estão localizados
em regiões intergênicas, e podem desempenhar importantes papéis na regulação
gênica e em doenças. Embora existam vários projetos relacionados a lincRNAs, tanto na
parte da biologia molecular quanto computacional, não há métodos amplamente usados
para sua predição. Neste contexto, validando características obtidas na literatura, criamos
um modelo baseado em máquinas de vetores de suporte (Support Vector Machine -
SVM) para predizer lincRNAs. Desenvolvemos dois estudos de caso, um para calcular o
desempenho do modelo usando Mus musculus (camundongo) e Homo sapiens (humano)
e outro para predizer lincRNAs em Saccharum officinarum (cana-de-açúcar). Os experimentos
mostraram que o modelo tem boa acurácia, em camundongos 90%, em humanos
99% e em ambos simultaneamente 91%, que são melhores resultados, quando comparados
ao iSeeRNA. Para a cana-de-açúcar, o método predisse 67 lincRNAs, usando um pipeline
construído especialmente para predizer lincRNAs, que inclui o modelo SVM treinado com
características extraídas de plantas. |
Abstract: | Among RNAs, some are involved in protein expression, and some other, although not
participating in protein synthesis, perform important functions in cells, called non-coding
RNAs (ncRNAs). Some functions of ncRNAs are: to catalyze chemical reactions and act
in regulation of other RNAs. Generically, we can classify ncRNAs into two classes: small
(small ncRNAs), having sizes between 20 and 300 nucleotides and presenting known features;
and longs (long ncRNAs - lncRNAs), which have sizes larger than 200 nucleotides
and small protein synthesis capacity, today not entirely known. Among the lncRNAs,
there are the so called long intergenic non-coding RNAs (lincRNAs), those located in
intergenic regions, which play important roles in gene regulation and diseases. Although
there are many projects related to lincRNAs, both in molecular biology and in computational
systems, there are no methods broadly used to predict lincRNAs. In this context,
validating features extracted from literature, we created a model based on Support Vector
Machine (SVM) to predict lincRNAs. Two case studies were developed, the first one to
verify the performance of the model, using Mus musculus (mouse) and Homo sapiens
(human), and the other one to predict lincRNAs in Saccharum officinarum (sugarcane).
The experiments showed that the model presented good accuracy, in mouse 90%, humans
99%, and in both simultaneously 91%, which were better when compared to iSeeRNA.
For sugarcane, the method predicted 67 lincRNAs, using a specially designed pipeline to
predict lincRNAs, including the SVM model trained with features extracted from plants. |
Informações adicionais: | Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016. |
Aparece na Coleção: | Engenharia da Computação
|