Título: | Aplicação de métodos de previsão e classificação em seleção genômica |
Autor(es): | Vasconcelos, Ana Gabriela P. de |
Orientador(es): | Andrade, Joanlise Marco de Leon |
Assunto: | Seleção genômica Eucalipto Melhoramento genético Aprendizado de máquina Regressão ridge Validação cruzada SVM (Support Vector Machines) |
Data de apresentação: | 20-Jun-2018 |
Data de publicação: | 28-Jul-2020 |
Referência: | VASCONCELOS, Ana Gabriela P. de. Aplicação de métodos de previsão e classificação em seleção genômica. 2018. 62 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018. |
Resumo: | Programas de melhoramento genético de árvores de floresta visam aumentar a qualidade e
ganho econômico de suas plantações por meio de manipulação genética, porém essa tarefa
envolve desafios como longos ciclos de cruzamento e altos custos de coleta de diversos
fenótipos para largas populações. Nesse sentido, abordagens que avaliam valores genéticos
de árvores jovens, sem a necessidade de fenotipagem, possuem o potencial de superar
estes desafios. Uma delas é a Seleção Genômica, que consiste em utilizar informações
moleculares para estimar efeitos de marcadores genéticos simultaneamente em todo o
genoma da população de melhoramento, com base em um modelo de predição. O modelo,
desenvolvido em uma população de treinamento com informações genotípicas e fenotípicas,
é utilizado para obter os Genomic Estimated Breeding Values (GEBVs) baseados em
informações apenas genotípicas de plantas candidatas. A análise destes GEBVs pode
auxiliar os pesquisadores no processo de tomada de decisões. Portanto, a escolha do
modelo é uma etapa essencial para melhorar o ganho genético e a habilidade preditiva. O
presente estudo buscou comparar os modelos mistos de regressão e de máquinas de suporte
vetoriais (SVMs) em dados de eucaliptos. Além disso estudou-se também fatores que
influenciam as métricas obtidas por tais modelos, como características genéticas, qualidade
dos fenótipos e efeitos de parentesco. Notou-se que os modelos para os fenótipos com
maiores herdabilidades apresentaram medidas de previsão também superiores. Verificou-se
que, de maneira geral, utilizar EBVs em vez de fenótipos como resposta do SVM pode
acrescentar informações mais confiáveis, levando até, em alguns casos, a métricas superiores.
Ainda foi possível verificar a importância de controlar os efeitos de parentesco por meio da
validação cruzada para a obtenção de métricas menos otimistas, uma vez que os modelos
serão utilizados com dados de novos indivíduos que não estavam presentes na população
de treinamento. Por fim, observou-se que os modelos de regressão e de SVM apresentaram
resultados consistentes, os quais evidenciaram que sua escolha deve depender do estudo
em questão. |
Abstract: | Tree improvement programs aim to economically increase forest productivity and quality
through genetic manipulation. However, this task involves challenges such as lengthy
breeding cycles and high costs of phenotyping large progeny trials for several traits.
Thus, approaches that evaluate breeding values of trees early in life, without the need to
phenotype, have the potential to help overcome these challenges. One of them is Genomic
Selection (GS), which consists in using molecular genetic information to estimate marker
effects simultaneously across the whole genome of the breeding population, based on a
prediction model. The prediction model, developed in a training sample with both genotype
and phenotype data, is then used to calculate Genomic Estimated Breeding Values (GEBV)
of selection candidates (based only on genotypes in the testing sample), which can guide
the breeders during the decision-making process. Therefore, developing GS models is an
essential step to improve the genetic gain and the predictive ability. In this study, Ridge
Regression models and Support Vector Machines algorithms were compared using data
from 999 Eucalyptus trees sampled from a progeny trial in an elite breeding population.
Also, factors that can influence metrics obtained by these models were studied, such as
quality of measurements of phenotypes and relationship effects. Models for phenotypes
with higher heritability showed better prediction ability. In general, using EBVs instead of
deregressed phenotypes as SVM’s response variable can add more reliable information,
leading, in some cases, to higher metrics. Also, was verified the importance of controlling
family effects through cross validation to obtain less optimistic predictive measures, since
the models will be used to predict data from new individuals, not present in the training
population. Finally, both SVM and regression models showed consistent and similar results,
which demonstrated that their choice depends on the study. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Estatística
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.