Construindo um processo ETL de Streaming utilizando o Ferramentas Proprietárias do Databricks e comparando-a com uma abordagem de ETL Tradicional

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/39176

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2023_ThiagoFerreira_tcc.pdf		1,7 MB	Adobe PDF	ver/abrir

Título:	Construindo um processo ETL de Streaming utilizando o Ferramentas Proprietárias do Databricks e comparando-a com uma abordagem de ETL Tradicional
Autor(es):	Ferreira, Thiago
Orientador(es):	Braz, Fabricio Ataides
Assunto:	Engenharia de dados Big Data Streaming (Tecnologia de transmissão de dados)
Data de apresentação:	17-Fev-2023
Data de publicação:	5-Jul-2024
Referência:	FERREIRA, Thiago. Construindo um processo ETL de Streaming utilizando o Ferramentas Proprietárias do Databricks e comparando-a com uma abordagem de ETL Tradicional. 2023. 45 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software) — Universidade de Brasília, Brasília, 2023.
Resumo:	Assim como o dado é tido como o novo petróleo, de nada serve o dado inexplorável. Como advento da era do Big Data e a crescente demanda por soluções aplicáveis à imensidão de dados gerada pela humanidade hoje, novas ferramentas tendem a surgir. Uma das principais frentes do ambiente de engenharia de dados tem sido tomada por uma empresa chamada Databricks. A Databricks fornece uma plataforma de engenharia de dados com diversas ferramentas proprietárias para ingestão, processamento e exposição de dados. Neste trabalho focaremos nas ferramentas de Streaming de Dados, o Auto-Loader e as Delta Live Tables do Databricks. Para ter uma base em como essas ferramentas se comparam com abordagens tradicionais, neste trabalho são construídas soluções tanto para as ferramentas do Databricks quanto para uma abordagem tradicional com Spark e Kafka e concluímos se a solução do Databricks é um diferencial tão grande quanto ela se propõe a ser.
Abstract:	Just as data is considered the new oil, unexplorable data is useless. With the advent of the Big Data era and the growing demand for solutions to the vast amount of data generated by humanity today, new tools are likely to emerge. One of the main fronts of the data engineering environment has been taken by a company called Databricks. Databricks provides a data engineering platform with various proprietary tools for data ingestion, processing, and exposure. In this work, we will focus on the Data Streaming tools, the Auto-Loader, and the Databricks Delta Live Tables. To have a basis for comparing these tools with traditional approaches, this work builds solutions for both Databricks tools and a traditional approach with Spark and Kafka, and concludes whether the Databricks solution is as much of a differential as it sets out to be.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Faculdade UnB Gama, 2023.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Engenharia de Software

Mostrar item em formato completo Recomendar este item Visualizar estatísticas