Título: | Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML |
Autor(es): | Hosoume, Juliana Mayumi |
Orientador(es): | Garcia, Luís Paulo Faina |
Assunto: | Aprendizado de máquina Computadores em pipeline |
Data de apresentação: | 9-Dez-2020 |
Data de publicação: | 21-Mai-2021 |
Referência: | HOSOUME, Juliana Mayumi. Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML. 2020. 73 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020. |
Resumo: | O aprendizado de máquina possui uma multitude de algoritmos e técnicas de pré-processamento que tratam de problemas de classificação. Combiná-los para projetar a melhor sequência de téc- nicas, ou pipeline, de aprendizado de máquina é uma tarefa desafiadora. Diferentes abordagens já foram investigadas, entre elas processos manuais de construção de pipelines, até utilização da otimização Bayesiana e de programação genética. No entanto, cada uma destas abordagens tem impedimentos, como a necessidade de um especialista humano ou elevado custo computacional. O meta-aprendizado pode superar estes dificuldades por meio do conhecimento acumulado em experimentos anteriores. Assim, o conhecimento é armazenado em uma meta-base cujos atri- butos preditivos são meta-características extraídas de conjuntos de dados, e os atributos alvo representam o desempenho preditivo de pipelines bem sucedidos aplicados a esses conjuntos de dados. Este estudo propõe o uso do meta-aprendizado como base para desenho de um processo iterativo de construção de pipelines para problemas de classificação. Nesse sentido, o sistema pro- posto é responsável por predizer um conjunto diversificado de algoritmos de desbalanceamento e filtros de ruído. Para tal, foi utilizada uma meta-base composta de 130 meta-características e quase 400 conjuntos de dados para induzir meta-regressores com diferentes vieses. O sistema de recomendação possui duas fases, uma on-line e uma off-line. Na fase on-line do sistema de recomendação de pipelines, as meta-características são extraídas de um novo conjunto de dados. Elas são então utilizadas como entrada de meta-regressores que predizem a acurácia balanceada de uma combinação de um pré-processador e um classificador. Como qualquer nú- mero de algoritmos de pré-processamento pode ser aplicado posteriormente, muitas etapas de predição são realizadas sequencialmente até que nenhuma técnica de pré-processamento seja re- comendada. Em cada etapa, as meta-características são extraídas deste novo conjunto de dados pré-processado, e todos os desempenhos para cada combinação são preditos. Se uma técnica de pré-processamento for recomendada, este algoritmo é aplicado ao conjunto de dados, e o pro- cesso é repetido iterativamente. Na fase off-line, o meta-conjunto de meta-dados, uma coleção de meta-características com acurácia balanceada de cada combinação de algoritmos e classifica- dores de pré-processamento disponíveis, pode ser incrementado pela introdução do desempenho calculado e das meta-características do novo conjunto de dados. Cada meta-regressor é então atualizado ou retreinado. No contexto das combinações selecionadas no papel, 40 meta-modelos são gerados para prever cada desempenho. Na avaliação do sistema, foram analisadas as quatro etapas do meta-aprendizado: a meta-base, o nível meta, o nível base e o nível de construção dos pipelines. Os resultados foram comparados a dois baselines, o aleatório, no qual o pipeline é construído de ao acaso, e o padrão, no qual o pipeline com melhor desempenho na média é sempre selecionado. Os meta-regressores previram a precisão balanceada das combinações com baixo erro, e alguns superaram os baselines. De acordo com os resultados experimentais, a estratégia proposta teve melhor desempenho do que as baselines. |
Abstract: | Machine learning has a multitude of algorithms and preprocessing techniques that address clas- sification problems. Combining them to design the best data classification pipeline is a challeng- ing task. Different approaches have already been investigated, including handmade pipelines, Bayesian optimization and genetic programming. Nevertheless, each of these approaches has hindrances, such as the need of a human specialist for handmade pipelines, or the computa- tional cost of Bayesian optimization, and genetic programming. Meta-learning can overcome these drawbacks through knowledge about pipelines accumulated from previous experiments. Thus, the knowledge is stored in a meta-base whose predictive attributes are meta-features extracted from datasets, and the target attributes represent the predictive performance of suc- cessful pipelines applied to these datasets. This study proposes the use of meta-learning as a pipeline builder to predict the performance of combinations of preprocessing techniques, like noise detection and unbalanced algorithms for classification problems. For such, a meta-base composed of 130 meta-features and almost 400 datasets were used to induce meta-regressors with different biases. The recommendation system has two phases, an on-line and an off-line. In the on-line phase of the recommendation system of pipelines, the metafeatures are extracted from a new data set. They are then used as input meta-regressors that predict the balanced accuracy of a combination of a pre-processor and a classifier. As any number of preprocessing algorithms can be applied later, many prediction steps are performed sequentially until no preprocessing technique is recommended. At each step, meta-features are extracted from this new preprocessed data set, and all performances for each combination are predicted. If a pre-processing technique is recommended, this algorithm is applied to the data set, and the process is repeated iteratively. In the off-line phase, the meta-data set, a collection of meta-characteristics with balanced accu- racy of each combination of available preprocessing algorithms and classifiers, can be enhanced by introducing the calculated performance and meta-characteristics of the new data set. Each meta-regressor is then updated or re-trained. In the context of the selected combinations on paper, 40 meta-models are generated to predict each performance. In the system evaluation, the four steps of the meta-learning were analyzed: the meta-base, the meta level, the base level and the construction level of the pipelines. The results were compared to two baselines, the random baseline, in which the pipeline is constructed according to chance, and the default baseline, in which the pipeline with the best performance on average is always selected. The meta-regressors predicted the balanced accuracy of the combinations with low error, and some outperformed the baselines. According to the experimental results, the proposed strategy performed better than the baselines. |
Informações adicionais: | Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Ciência da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.