Claudio Marcelino — Senior Data Engineer

sobre

Senior Data Engineer

15+ anos entregando plataformas de dados de alta complexidade para os maiores bancos e empresas do Brasil — Itaú, Santander, Bradesco, Ambev e PicPay.

Especialista em Medallion Architecture, Delta Lake, CI/CD para dados e migrações AWS/Azure. Fundador do AuditAI — plataforma SaaS de auditoria inteligente com IA.

Atualmente cursando Pós-Graduação em Cloud & AI DevOps na Faculdade Impacta (2026-2027).

Out 2025 – Abr 2026

Tech Lead — Plataforma Azure Databricks (Saúde)

Construiu esteira CI/CD enterprise do zero — 9 stacks Terraform, Unity Catalog, Private Endpoints, TFLint, Terrascan e 2 gates de aprovação humana.

Jun 2024 – Out 2025

Big Data Engineer — GFT Technologies

Data Mesh para Itaú Unibanco — modernização de Mainframe, pipelines AWS Glue, Lambda, Step Functions e Terraform IaC.

Dez 2023 – Abr 2024

Data Engineer — PicPay Bank

Migração Parquet → Delta Lake — redução de +50% no tempo de job e custo. Databricks Auto-Scaling via Airflow.

2010 – 2013

Analista BI/ETL — Tetis Consultoria

Início de carreira em Business Intelligence. ETL, modelagem dimensional e SQL Server para clientes do setor financeiro.

serviços

O que Entrego

Expertise completa em engenharia de dados — da ingestão bruta até analytics prontos para o negócio, com CI/CD e IA integrados.

Arquitetura Data Lakehouse

Medallion Architecture (Bronze/Silver/Gold) com Delta Lake, Star Schema, Unity Catalog e Single Source of Truth.

DataOps & CI/CD para Dados

Pipelines CI/CD enterprise para Databricks com Terraform, GitHub Actions e Azure DevOps — dev, staging e prod com gates de qualidade automatizados.

IA & Engenharia MLOps

Ferramentas com IA usando MLflow, LangChain e FastAPI. Pipelines MLOps com retreinamento contínuo e versionamento de modelos.

tecnologia

Stack Tecnológica

Tecnologias que uso diariamente em projetos de produção.

⚡ Databricks & Spark

Transformações PySpark, Delta Lake MERGE, clusters Auto-Scaling, Databricks Jobs, governança Unity Catalog. 3x certificado.

🔄 Apache Airflow

Orquestração de DAGs complexas, geração dinâmica de tasks, sensors, operadores customizados e integração CI/CD.

☁️ AWS

S3, Athena, Glue, Redshift, Lambda, Step Functions, EMR, CloudWatch, IAM — pipelines de produção para bancos Tier-1.

🔷 Azure

ADF, ADLS Gen2, Azure Databricks, DevOps, Key Vault com CMK, Private Endpoints e VNet Injection.

🏗️ Terraform & IaC

9 stacks enterprise IaC para Azure Databricks — tfstate isolado, Smart Import, TFLint, Terrascan e gates de aprovação.

🤖 IA & MLOps

MLflow, LangChain, FastAPI, SpaCy, Scikit-learn — construiu o AuditAI SaaS do zero, em produção e ao vivo.

portfólio

Projetos em Destaque

Projetos enterprise combinando Engenharia de Dados, DevOps e IA.

🔍 IaC Scanner with AI NEWAI

Analisador de segurança Terraform combinando engine de regras estáticas com Claude AI. Detecta vulnerabilidades, secrets hardcoded, security groups abertos e anti-padrões de arquitetura. Retorna score de segurança 0-100 com sugestões de correção.

PythonTerraform Claude AIStreamlit AWSAzure

⌥ GitHub

🏦 Medallion Finance Pipeline NEW

Medallion Architecture ponta a ponta (Bronze→Silver→Gold) para dados financeiros. Gerador de dados sintéticos, transformações PySpark, upserts Delta MERGE, modelagem Star Schema e dashboard Streamlit consumindo a camada Gold.

PySparkDelta Lake DatabricksStar Schema Airflow

⌥ GitHub

⚙️ DataOps CI/CD Template NEW

Template de pipeline CI/CD enterprise para Engenharia de Dados no Databricks. GitHub Actions com gates de qualidade, testes automatizados, checks de qualidade de dados e deploy multi-ambiente (dev→staging→prod) com aprovações manuais.

GitHub ActionsTerraform Databrickspytest YAML

⌥ GitHub

⚡ CCEE Streaming PoC NEW

PoC de streaming para dados de medição de energia elétrica baseado em projeto real da CCEE. Originalmente construído com AWS API Gateway + Kinesis + Flink + DynamoDB. Simulado on-premise com FastAPI + Kafka + PySpark Streaming + SQLite.

KafkaPySpark Streaming FastAPIKinesis Flink

⌥ GitHub

🤖 AuditAI AILIVE

Plataforma SaaS de auditoria inteligente com IA baseada nas normas ISO 31000 e ISO 37301. RandomForest + MLflow com retreinamento contínuo, detecção de dados sensíveis via NLP/SpaCy e gestão de riscos com matriz 5x5.

FastAPIMLflow LangChainSpaCy Streamlit

▸ App Ao Vivo ⌥ GitHub

credenciais

Certificações

🏆

Platform Administrator

Databricks

🏆

LakeHouse Fundamentals

Databricks

🏆

Generative AI Fundamentals

Databricks

🔒

CyberSecurity Essentials

Certiprof

outros projetos

Projetos Anteriores

Projetos de exploração e aprendizado — experimentos com dados públicos, Databricks e Python.

💰 Plataforma de Dados Inter

Insights para redução de custo de infraestrutura utilizando instâncias Spot da AWS. Análise de economia e recomendações automatizadas com Streamlit e Python.

Python Streamlit AWS Spot Cost Optimization

⌥ GitHub

🧬 Análise de DNA/RNA com Biopython

Análises avançadas de sequências de DNA e RNA usando Databricks e Biopython — transcrição, tradução para proteínas, cálculo de massa molecular e visualizações gráficas. Projeto acadêmico USP.

Python Databricks Biopython USP

⌥ GitHub

🏛️ API Brasil — Dados PIX

Ingestão e análise de dados de participantes do sistema PIX usando a API Brasil. Coleta de informações, transformação e geração de relatórios analíticos com dados públicos.

Python REST API Pandas Dados Públicos

⌥ GitHub

🛒 Olist — Bronze, Silver e Gold

Pipeline de ingestão de dados do Olist (e-commerce) implementando camadas Bronze, Silver e Gold. Dados sobre vendas, clientes, produtos e logística processados com Databricks e PySpark.

Databricks PySpark Delta Lake Medallion

⌥ GitHub

📊 Framework Negativados

Arquitetura em Databricks para sortear CPFs propensos a obter descontos — análise de perfil de negativados e score de probabilidade de conversão com PySpark.

Databricks PySpark Python Analytics

⌥ GitHub

🔑 Surrogate Key Generator (Lib)

Biblioteca Python para gerar chaves surrogate mascarando IDs usando algoritmos de hashing para Databricks. Garante unicidade e rastreabilidade sem expor IDs originais.

Python Databricks Hashing Library

⌥ GitHub

Olá, sou Claudio Marcelino!

Senior Data Engineer

Tech Lead — Plataforma Azure Databricks (Saúde)

Big Data Engineer — GFT Technologies

Data Engineer — PicPay Bank

Analista BI/ETL — Tetis Consultoria

O que Entrego

Arquitetura Data Lakehouse

DataOps & CI/CD para Dados

IA & Engenharia MLOps

Stack Tecnológica

⚡ Databricks & Spark

🔄 Apache Airflow

☁️ AWS

🔷 Azure

🏗️ Terraform & IaC

🤖 IA & MLOps

Projetos em Destaque

🔍 IaC Scanner with AI NEWAI

🏦 Medallion Finance Pipeline NEW

⚙️ DataOps CI/CD Template NEW

⚡ CCEE Streaming PoC NEW

🤖 AuditAI AILIVE

Certificações

Projetos Anteriores

💰 Plataforma de Dados Inter

🧬 Análise de DNA/RNA com Biopython

🏛️ API Brasil — Dados PIX

🛒 Olist — Bronze, Silver e Gold

📊 Framework Negativados

🔑 Surrogate Key Generator (Lib)

Vamos Conversar?