Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/25012
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2018_AnaGabrielaPVasconcelos_tcc.pdfTrabalho de Conclusão de Curso (graduação)3,38 MBAdobe PDFver/abrir
Título: Aplicação de métodos de previsão e classificação em seleção genômica
Autor(es): Vasconcelos, Ana Gabriela P. de
Orientador(es): Andrade, Joanlise Marco de Leon
Assunto: Seleção genômica
Eucalipto
Melhoramento genético
Aprendizado de máquina
Regressão ridge
Validação cruzada
SVM (Support Vector Machines)
Data de apresentação: 20-Jun-2018
Data de publicação: 28-Jul-2020
Referência: VASCONCELOS, Ana Gabriela P. de. Aplicação de métodos de previsão e classificação em seleção genômica. 2018. 62 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018.
Resumo: Programas de melhoramento genético de árvores de floresta visam aumentar a qualidade e ganho econômico de suas plantações por meio de manipulação genética, porém essa tarefa envolve desafios como longos ciclos de cruzamento e altos custos de coleta de diversos fenótipos para largas populações. Nesse sentido, abordagens que avaliam valores genéticos de árvores jovens, sem a necessidade de fenotipagem, possuem o potencial de superar estes desafios. Uma delas é a Seleção Genômica, que consiste em utilizar informações moleculares para estimar efeitos de marcadores genéticos simultaneamente em todo o genoma da população de melhoramento, com base em um modelo de predição. O modelo, desenvolvido em uma população de treinamento com informações genotípicas e fenotípicas, é utilizado para obter os Genomic Estimated Breeding Values (GEBVs) baseados em informações apenas genotípicas de plantas candidatas. A análise destes GEBVs pode auxiliar os pesquisadores no processo de tomada de decisões. Portanto, a escolha do modelo é uma etapa essencial para melhorar o ganho genético e a habilidade preditiva. O presente estudo buscou comparar os modelos mistos de regressão e de máquinas de suporte vetoriais (SVMs) em dados de eucaliptos. Além disso estudou-se também fatores que influenciam as métricas obtidas por tais modelos, como características genéticas, qualidade dos fenótipos e efeitos de parentesco. Notou-se que os modelos para os fenótipos com maiores herdabilidades apresentaram medidas de previsão também superiores. Verificou-se que, de maneira geral, utilizar EBVs em vez de fenótipos como resposta do SVM pode acrescentar informações mais confiáveis, levando até, em alguns casos, a métricas superiores. Ainda foi possível verificar a importância de controlar os efeitos de parentesco por meio da validação cruzada para a obtenção de métricas menos otimistas, uma vez que os modelos serão utilizados com dados de novos indivíduos que não estavam presentes na população de treinamento. Por fim, observou-se que os modelos de regressão e de SVM apresentaram resultados consistentes, os quais evidenciaram que sua escolha deve depender do estudo em questão.
Abstract: Tree improvement programs aim to economically increase forest productivity and quality through genetic manipulation. However, this task involves challenges such as lengthy breeding cycles and high costs of phenotyping large progeny trials for several traits. Thus, approaches that evaluate breeding values of trees early in life, without the need to phenotype, have the potential to help overcome these challenges. One of them is Genomic Selection (GS), which consists in using molecular genetic information to estimate marker effects simultaneously across the whole genome of the breeding population, based on a prediction model. The prediction model, developed in a training sample with both genotype and phenotype data, is then used to calculate Genomic Estimated Breeding Values (GEBV) of selection candidates (based only on genotypes in the testing sample), which can guide the breeders during the decision-making process. Therefore, developing GS models is an essential step to improve the genetic gain and the predictive ability. In this study, Ridge Regression models and Support Vector Machines algorithms were compared using data from 999 Eucalyptus trees sampled from a progeny trial in an elite breeding population. Also, factors that can influence metrics obtained by these models were studied, such as quality of measurements of phenotypes and relationship effects. Models for phenotypes with higher heritability showed better prediction ability. In general, using EBVs instead of deregressed phenotypes as SVM’s response variable can add more reliable information, leading, in some cases, to higher metrics. Also, was verified the importance of controlling family effects through cross validation to obtain less optimistic predictive measures, since the models will be used to predict data from new individuals, not present in the training population. Finally, both SVM and regression models showed consistent and similar results, which demonstrated that their choice depends on the study.
Informações adicionais: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Estatística



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.