Home
Softono
YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project

YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project

Open source Jupyter Notebook
22
Stars
3
Forks
0
Issues
0
Watchers
3 months
Last Commit

About YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project

📄 Projeto-base de ETL batch com Python, Pandas e Streamlit, pensado para quem quer estudar e reproduzir um fluxo completo de Engenharia de Dados pela primeira vez.

Platforms

Web Self-hosted

Languages

Jupyter Notebook

Pipeline ETL em Batch - NYC Yellow Taxi

🚕 Projeto de Engenharia de Dados com pipeline ETL em lote para dados de corridas de táxi de NYC, persistência em Parquet e dashboard interativo com Streamlit.


Links Importantes do Tutorial

Recurso Link
Vídeo no YouTube Assistir Tutorial Completo
Documentação Completa Notion
Repositório GitHub YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project
Padrão de Commits Guia Completo com Emojis
Instagram @vbluuiza
LinkedIn vbluuiza

Índice


Sobre o Projeto

Este repositório mostra um fluxo ETL completo em batch usando dados reais de Yellow Taxi de NYC.

O pipeline cobre as etapas de:

  1. Extração dos dados CSV
  2. Validação e tratamento de qualidade de dados
  3. Transformação e criação de métricas
  4. Agregações para análise
  5. Persistência em formato Parquet
  6. Visualização no Streamlit

Objetivo: servir como projeto-base para quem quer estudar e reproduzir um processo de Engenharia de Dados ponta a ponta.


Arquitetura do Pipeline

Arquitetura ETL em Batch


Dashboard

Visão Geral

Dashboard - Visão Geral

Análise por Fornecedor

Dashboard - Fornecedor

Análise por Pagamento

Dashboard - Pagamento

Análise por Dia da Semana

Dashboard - Dia da Semana


Stack Tecnológica

Camada Tecnologia Versão Por que usamos
Core Python 3.14+ Linguagem principal para construir o ETL e o dashboard.
Core Streamlit 1.44+ Cria o dashboard interativo rapidamente, sem precisar de front-end.
Biblioteca Python pandas 2.2+ Faz limpeza, transformação, agregações e análise tabular dos dados.
Biblioteca Python pyarrow 19.0+ Leitura e escrita de Parquet com boa performance em formato colunar.
Biblioteca Python ipykernel 7.2+ Conecta o ambiente Python ao Jupyter Notebook.
Ferramenta Jupyter Notebook - Desenvolvimento e validação passo a passo do pipeline ETL.
Ferramenta UV - Gerencia dependências e execução do projeto de forma rápida e reprodutível.

Estrutura do Projeto

├── data/
│   ├── yellow_tripdata_2016-03.csv
│   └── output/
│       └── yellow_taxi_2016-03.parquet
├── notebooks/
│   └── main.ipynb
├── dashboard.py
├── DATASET.md
├── pyproject.toml
└── uv.lock

Observação: a pasta data/ não foi subida para o GitHub neste repositório. Para reproduzir o projeto, gere os arquivos localmente executando o notebook em notebooks/main.ipynb.


Pré-requisitos

  • Python 3.14 ou superior
  • UV instalado

Instalação do UV (caso precise):

pip install uv

Instalação e Configuração

1) Clone o repositório

git clone https://github.com/vbluuiza/YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project.git
cd YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project

2) Sincronize dependências

uv sync

Como Executar

Opção A: executar pipeline no notebook

uv run jupyter notebook

Depois abra notebooks/main.ipynb e execute as células para gerar o parquet em data/output/yellow_taxi_2016-03.parquet.

Opção B: executar dashboard Streamlit

uv run streamlit run dashboard.py

O dashboard será aberto no navegador local.


Contato

vbluuiza | [email protected]

YouTube Instagram LinkedIn GitHub


Se este projeto te ajudou:

  1. Dê uma star no repositório ⭐
  2. Inscreva-se no canal @vbluuiza 🩷
  3. Deixe seu like no vídeo 👍
  4. Comente com dúvidas e sugestões 💬

Feito com ❤️ por @vbluuiza