Título: | Abordagem baseada em aprendizagem de máquina para identificar sinais comportamento de depressão na rede social Twitter utilizando conteúdos das postagens e atividades |
Autor(es): | Freitas, Luan Mendes Gonçalves |
Orientador(es): | Ladeira, Marcelo |
Coorientador(es): | Caetano, Marcos Fagundes |
Assunto: | Twitter (Rede social on-line) Depressão Mineração de dados |
Data de apresentação: | 6-Out-2022 |
Data de publicação: | 14-Fev-2023 |
Referência: | FREITAS, Luan Mendes Gonçalves. Abordagem baseada em aprendizagem de máquina para identificar sinais comportamento de depressão na rede social Twitter utilizando conteúdos das postagens e atividades. 2022. xiv, 100 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2022. |
Resumo: | Um desafio, nos dias de hoje, é o de detectar e compreender sinais de transtornos depressivos em postagens de textos nas redes sociais. O projeto é baseado nos trabalhos dos pesquisadores De Choudhury et al. e Coppersmith et al. para criar um modelo para ser incorporado em uma ferramenta que seja capaz de detectar sinais de comportamento depressivo dos usuários a partir da análise das suas postagens no Twitter. São
construídas duas bases de tweets, em português e de forma anômia, uma da pré-pandemia (01/01/2018 a 31/12/2019), com N=71.232 usuários e uma na pandemia (01/01/2020 a 31/12/2021), com N=70.370 usuários. Essas bases contêm usuários declarados depressivos e usuários não declarados depressivos (controle). São consideradas as seguintes questões de pesquisa: análise de cinco novos atributos na performance dos modelos e a mobilidade de usuários entre as classes depressivo e não-depressivo após a pandemia. As bases de dados são compostas por dez atributos propostos por De Choudhury et al. e os cinco novos atributos. São induzidos modelos de aprendizagem de máquina (classificadores) que são: Regressão Logística (modelo Baseline; obs.: não conta como modelo de aplicação, serve apenas para avaliar o desempenho dos outros modelos), Análise Discriminante Linear, Árvore de Decisão, Floresta Randômica, Gradient Boosting, K-ésimo Vizinho mais Próximo, Perceptron Multicamadas, Máquina de Vetores de Suporte, Naive Bayes, Bagging,
Boosting, Votação Hard e Votação Soft, com intuito de identificar qual melhor modelo para identificar sinais de padrão de comportamento de depressão em postagens na rede social Twitter. Os modelos induzidos alcançam desempenhos superiores a performance de modelos propostos por De Choudhury para tweets em língua inglesa, de acordo nossa literatura, com f1-score médio de 80%. Dessa maneira, esperamos capacitar os usuários a entender melhor seus sinais e orientá-los a buscar assistência profissional sempre que
necessário. |
Abstract: | A challenge nowadays is to detect and understand signs of depressive disorders in text posts on social networks. In Brazil, the research develops computational models that are able to detect and understand signs of disorders in text posts. These models show promising results, in addition to a variety of possible exploration and research cases. The project is based on the work of researchers De Choudhury et al. and Coppersmith et al. In this way, we collected data from posts and user activities on the social network Twitter, extracted characteristics that we defined in our project and built two databases of users on Twitter in two different periods: a database of posts and activities from 2018 to 2019, before the outbreak of the COVID-19 pandemic, and a database of posts and activities from 2020 to 2021, during the COVID-19 pandemic. These two databases are induced in 13 supervised machine learning models, in order to identify the best model to be incorporated into a tool that is capable of identifying signs of depressive and non-depressive behavior patterns in posts on the social network Twitter. The supervised learning models are Logistic Regression (Baseline model; obs.: it does not count as an application model, it only serves to evaluate the performance of other models), Linear Discriminant Analysis, Decision Tree, Random Forest, Gradient Boosting, K-th Nearest Neighbor, Multilayer Perceptron, Support Vector Machine, Naive Bayes, Bagging, Boosting, Hard Voting and
Soft Voting. To achieve these goals, we extract traits by measuring writing patterns (e.g. language styles, emojis, oriental characters (Japanese, Chinese and Korean) and depressive terms and anti-depressant medications) and Twitter activity history (e.g. number of tweets, likes and comments) in user posts on the social network Twitter. The resulting models successfully distinguish between depressive and non-depressive classes, with performance results comparable to the results of our literature, with an average f1-score of
80%. In this way, we hope to empower users to better understand their signals and guide them to seek professional assistance whenever necessary. |
Informações adicionais: | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Ciência da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.