15+ Anos Exp.
5 Bancos Tier-1
9 Stacks Terraform
3 Certs Databricks
11 Projetos Abertos

Senior Data Engineer

15+ anos entregando plataformas de dados de alta complexidade para os maiores bancos e empresas do Brasil — Itaú, Santander, Bradesco, Ambev e PicPay.

Especialista em Medallion Architecture, Delta Lake, CI/CD para dados e migrações AWS/Azure. Fundador do AuditAI — plataforma SaaS de auditoria inteligente com IA.

Atualmente cursando Pós-Graduação em Cloud & AI DevOps na Faculdade Impacta (2026-2027).

Out 2025 – Abr 2026
Tech Lead — Plataforma Azure Databricks (Saúde)

Construiu esteira CI/CD enterprise do zero — 9 stacks Terraform, Unity Catalog, Private Endpoints, TFLint, Terrascan e 2 gates de aprovação humana.

Jun 2024 – Out 2025
Big Data Engineer — GFT Technologies

Data Mesh para Itaú Unibanco — modernização de Mainframe, pipelines AWS Glue, Lambda, Step Functions e Terraform IaC.

Dez 2023 – Abr 2024
Data Engineer — PicPay Bank

Migração Parquet → Delta Lake — redução de +50% no tempo de job e custo. Databricks Auto-Scaling via Airflow.

2010 – 2013
Analista BI/ETL — Tetis Consultoria

Início de carreira em Business Intelligence. ETL, modelagem dimensional e SQL Server para clientes do setor financeiro.

O que Entrego

Expertise completa em engenharia de dados — da ingestão bruta até analytics prontos para o negócio, com CI/CD e IA integrados.

Arquitetura Data Lakehouse

Medallion Architecture (Bronze/Silver/Gold) com Delta Lake, Star Schema, Unity Catalog e Single Source of Truth.

DataOps & CI/CD para Dados

Pipelines CI/CD enterprise para Databricks com Terraform, GitHub Actions e Azure DevOps — dev, staging e prod com gates de qualidade automatizados.

IA & Engenharia MLOps

Ferramentas com IA usando MLflow, LangChain e FastAPI. Pipelines MLOps com retreinamento contínuo e versionamento de modelos.

Stack Tecnológica

Tecnologias que uso diariamente em projetos de produção.

⚡ Databricks & Spark

Transformações PySpark, Delta Lake MERGE, clusters Auto-Scaling, Databricks Jobs, governança Unity Catalog. 3x certificado.

🔄 Apache Airflow

Orquestração de DAGs complexas, geração dinâmica de tasks, sensors, operadores customizados e integração CI/CD.

☁️ AWS

S3, Athena, Glue, Redshift, Lambda, Step Functions, EMR, CloudWatch, IAM — pipelines de produção para bancos Tier-1.

🔷 Azure

ADF, ADLS Gen2, Azure Databricks, DevOps, Key Vault com CMK, Private Endpoints e VNet Injection.

🏗️ Terraform & IaC

9 stacks enterprise IaC para Azure Databricks — tfstate isolado, Smart Import, TFLint, Terrascan e gates de aprovação.

🤖 IA & MLOps

MLflow, LangChain, FastAPI, SpaCy, Scikit-learn — construiu o AuditAI SaaS do zero, em produção e ao vivo.

Projetos em Destaque

Projetos enterprise combinando Engenharia de Dados, DevOps e IA.

🔍 IaC Scanner with AI NEWAI

Analisador de segurança Terraform combinando engine de regras estáticas com Claude AI. Detecta vulnerabilidades, secrets hardcoded, security groups abertos e anti-padrões de arquitetura. Retorna score de segurança 0-100 com sugestões de correção.

PythonTerraform Claude AIStreamlit AWSAzure
⌥ GitHub
🏦 Medallion Finance Pipeline NEW

Medallion Architecture ponta a ponta (Bronze→Silver→Gold) para dados financeiros. Gerador de dados sintéticos, transformações PySpark, upserts Delta MERGE, modelagem Star Schema e dashboard Streamlit consumindo a camada Gold.

PySparkDelta Lake DatabricksStar Schema Airflow
⌥ GitHub
⚙️ DataOps CI/CD Template NEW

Template de pipeline CI/CD enterprise para Engenharia de Dados no Databricks. GitHub Actions com gates de qualidade, testes automatizados, checks de qualidade de dados e deploy multi-ambiente (dev→staging→prod) com aprovações manuais.

GitHub ActionsTerraform Databrickspytest YAML
⌥ GitHub
⚡ CCEE Streaming PoC NEW

PoC de streaming para dados de medição de energia elétrica baseado em projeto real da CCEE. Originalmente construído com AWS API Gateway + Kinesis + Flink + DynamoDB. Simulado on-premise com FastAPI + Kafka + PySpark Streaming + SQLite.

KafkaPySpark Streaming FastAPIKinesis Flink
⌥ GitHub
🤖 AuditAI AILIVE

Plataforma SaaS de auditoria inteligente com IA baseada nas normas ISO 31000 e ISO 37301. RandomForest + MLflow com retreinamento contínuo, detecção de dados sensíveis via NLP/SpaCy e gestão de riscos com matriz 5x5.

FastAPIMLflow LangChainSpaCy Streamlit
App Ao Vivo ⌥ GitHub
Certificações
🏆
Platform Administrator
Databricks
🏆
LakeHouse Fundamentals
Databricks
🏆
Generative AI Fundamentals
Databricks
🔒
CyberSecurity Essentials
Certiprof

Projetos Anteriores

Projetos de exploração e aprendizado — experimentos com dados públicos, Databricks e Python.

💰 Plataforma de Dados Inter

Insights para redução de custo de infraestrutura utilizando instâncias Spot da AWS. Análise de economia e recomendações automatizadas com Streamlit e Python.

Python Streamlit AWS Spot Cost Optimization
⌥ GitHub
🧬 Análise de DNA/RNA com Biopython

Análises avançadas de sequências de DNA e RNA usando Databricks e Biopython — transcrição, tradução para proteínas, cálculo de massa molecular e visualizações gráficas. Projeto acadêmico USP.

Python Databricks Biopython USP
⌥ GitHub
🏛️ API Brasil — Dados PIX

Ingestão e análise de dados de participantes do sistema PIX usando a API Brasil. Coleta de informações, transformação e geração de relatórios analíticos com dados públicos.

Python REST API Pandas Dados Públicos
⌥ GitHub
🛒 Olist — Bronze, Silver e Gold

Pipeline de ingestão de dados do Olist (e-commerce) implementando camadas Bronze, Silver e Gold. Dados sobre vendas, clientes, produtos e logística processados com Databricks e PySpark.

Databricks PySpark Delta Lake Medallion
⌥ GitHub
📊 Framework Negativados

Arquitetura em Databricks para sortear CPFs propensos a obter descontos — análise de perfil de negativados e score de probabilidade de conversão com PySpark.

Databricks PySpark Python Analytics
⌥ GitHub
🔑 Surrogate Key Generator (Lib)

Biblioteca Python para gerar chaves surrogate mascarando IDs usando algoritmos de hashing para Databricks. Garante unicidade e rastreabilidade sem expor IDs originais.

Python Databricks Hashing Library
⌥ GitHub

Vamos Conversar?

Aberto a oportunidades remotas — Senior Data Engineer, DataOps Engineer, MLOps Engineer ou Tech Lead. Disponível para contratos PJ em BRL ou USD.

✉ claudio.marcelino@easybigdata.com.br

LinkedIn GitHub 🤖 AuditAI Live