Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/26532

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2019_PedroAurelioCoelhoDeAlmeida_tcc.pdf		1,24 MB	Adobe PDF	ver/abrir

Registro completo

Campo Dublin Core	Valor	Língua
dc.contributor.advisor	Borges, Díbio Leandro	-
dc.contributor.author	Almeida, Pedro Aurélio Coelho de	-
dc.identifier.citation	ALMEIDA, Pedro Aurélio Coelho de. Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas. 2019. xv, 51 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019.	pt_BR
dc.description	Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.	pt_BR
dc.description.abstract	O estudo do DNA é importante para aplicações clínicas e de pesquisa. Dada a complexi- dade de sua análise, o uso de ferramentas computacionais se torna extremamente vanta- joso. Este trabalho compara o desempenho dos modelos de aprendizagem de máquinas (Isolation e Random Forest) na detecção de mutações somáticas (inserções/remoções e polimorfismo de nucleotídeo único), utilizando os atributos calculados pela ferramenta chamada Strelka2. O treinamento dos modelos foi realizado por meio de validação cruzada do tipo k-fold (k=10) com avaliação das métricas de revocação e f1-score nas bases de testes utilizadas pelos autores do Strelka2. A partir destes testes, o Random Forest ap- resentou f1-scores maiores que 0,9, enquanto que o Isolation Forest resultou em valores inferiores a 0,75. Utilizar o Random Forest é recomendável quando se tem dados rotulados e se deseja alta revocação e precisão. Investigações futuras incluem a avaliação de outras técnicas de aprendizagem não supervisionada como mapas auto organizáveis e/ou uso de diferentes atributos para o Isolation Forest.	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject.keyword	DNA	pt_BR
dc.subject.keyword	Aprendizado de máquina	pt_BR
dc.subject.keyword	Inteligência artificial	pt_BR
dc.title	Avaliação de algoritmos de aprendizagem de máquinas na detecção de mutações somáticas	pt_BR
dc.type	Trabalho de Conclusão de Curso - Graduação - Bacharelado	pt_BR
dc.date.accessioned	2021-02-02T12:51:00Z	-
dc.date.available	2021-02-02T12:51:00Z	-
dc.date.submitted	2019-11-14	-
dc.identifier.uri	https://bdm.unb.br/handle/10483/26532	-
dc.language.iso	Português	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.	pt_BR
dc.description.abstract1	DNA analysis is very important for clinical and research purposes. Given its complexity, computers become useful tools. This work presents a comparison between both the Iso- lation and Random Forest machine learning techniques using the features calculated by the somatic mutation caller Strelka2 for both insertions/deletions and single nucleotide variants. Both models were calibrated using k-fold cross-validation (k=10) and evaluated considering recall and f1-score metrics for the test bases used by Strelka2. From these trials, Random Forest reached f1-scores greater than 0.9 while Isolation Forest presented values lower than 0.75 for the same metric. Using Random Forest is recommended when there is labeled data and when one requires high precision and recall. Future research would include evaluating different unsupervised learning models namely self organizing maps and/or using a different feature set to calibrate Isolation Forest.	pt_BR
Aparece na Coleção:	Engenharia da Computação

Mostrar item em formato simples Recomendar este item Visualizar estatísticas