Título: | Natural Language Inference using models based on Long-Short Term Memory : A Comparative Study |
Autor(es): | Silva, Felipe Xavier Barbosa |
Orientador(es): | Borges, Vinícius Ruela Pereira |
Assunto: | Linguagem natural Texto - classificação |
Data de apresentação: | 11-Mai-2022 |
Data de publicação: | 17-Fev-2023 |
Referência: | SILVA, Felipe Xavier Barbosa. Natural Language Inference using models based on Long-Short Term Memory: A Comparative Study. 2022. x, 49 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2022. |
Resumo: | Inferência de Linguagem Natural é a tarefa de classificar automaticamente a relação entre dois textos como sendo de inferência ou não, com um desses textos sendo geralmente chamado de premissa, e o outro de hipótese. Modelos de Inferência de Linguagem Natural melhoraram significativamente nos últimos anos devido ao desempenho cada vez melhor de sistemas de aprendizado profundo. Contudo, eles também ficaram mais complexos, o que levou a tempos de treinamento longos. Por causa disso, a otimização de hiperparâmetros é raramente feita dentro da área de Inferência de Linguagem Natural. Ademais, muitos dos novos artigos não justificam as suas escolhas de hiperparâmetros. Neste trabalho, foram analisados os efeitos de uma otimização de hiperparâmetros de larga escala em modelos de LSTM simples para a tarefa de Inferência de Linguagem Natural, com o objetivo de determinar se essa otimização é viável considerando o tempo de processamento computacional. Além disso, foi estudado se seria uma estratégia válida reusar parâmetros que foram otimizados para outro conjunto de dados, como alguns trabalhos na literatura fizeram. Os experimentos foram conduzidos em três conjuntos de dados: ASSIN 2, SICK, e uma versão reduzida do SNLI, RSNLI. Em todos os três conjuntos de dados, foi verificada uma variação significativa de desempenho causada pela otimização de hiperparâmetros, chegando a 15,4% no ASSIN 2, 4,7% no SICK, e 17,5% no RSNLI. Além disso, a análise da acurácia média de cada combinação de hiperparâmetro mostrou uma correlação de 0, 520 a 0, 44 para o desempenho dos mesmos hiperparâmetros em conjuntos de dados diferentes. A conclusão desta pesquisa é que a otimização de hiperparâmetros teve um efeito significativo em modelos de LSTM simples, mas ainda resta testá-la em sistemas mais complexos. |
Abstract: | Natural Language Inference (NLI) is the task of automatically classifying the relation between two texts as one of inference or not, with one of these texts being usually called the premise, and the other the hypothesis. NLI models have improved significantly in the last few years due to the increasing performance of deep learning systems. However, they have also grown in complexity, which led to long training times. As such, yperparameter tuning is rarely performed within the field of NLI. Additionally, many new papers don’t provide a sufficient justification for the hyperparameters used. In this work, the effects of a large-scale hyperparameter tuning on simple LSTM models for the NLI task were analyzed with the goal of determining if this optimization could be worth the computational cost. It was also studied if it could be a valid strategy to reuse hyperparameters optimized for a different dataset, as some works in the literature have done. The experiments were conducted on three datasets: ASSIN 2, SICK, and a reduced version of SNLI, named RSNLI. In all three datasets, a significant variation in performance caused by hyperparameter tuning was verified, reaching as high as 15.4% on the ASSIN 2 dataset, 4.7% on the SICK dataset, and 17.5% on the RSNLI dataset. Additionally, the analysis of the average accuracy of each hyperparameter combination showed a correlation ranging from 0.520 to 0.744 for the performance of the same hyperparameters in different datasets. The conclusion of this research is that the optimization of hyperparameters had a significant effect on simple LSTM models, but it remains to be tested in-depth on more complex systems |
Informações adicionais: | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.