Data Engineer, Databricks

Posted 6ds ago

Employment Information

Education
Salary
Experience
Job Type

Report this job

Job expired or something wrong with this job?

Job Description

Data Engineer focused on implementing high-quality data architectures and analytical solutions. Collaborating with internal teams and clients at Derevo to manage big data efficiently.

Responsibilities:

  • Serás pieza clave para crear e implementar arquitecturas modernas de datos con alta calidad, impulsando soluciones analíticas basadas en tecnologías de Big Data.
  • Diseñarás, mantendrás y optimizarás sistemas de multiprocesamiento paralelo, aplicando las mejores prácticas de almacenamiento y gestión en data warehouses, data lakes y lakehouses.
  • Recolectarás, procesarás, limpiarás y orquestarás grandes volúmenes de datos, entendiendo modelos estructurados y semi–estructurados.
  • Definirás la estrategia óptima según objetivos de negocio y requerimientos técnicos, convirtiendo problemas complejos en soluciones alcanzables que ayuden a nuestros clientes a tomar decisiones basadas en datos.
  • Te integrarás al proyecto, sus sprints y ejecutarás las actividades de desarrollo aplicando siempre las mejores prácticas de datos y las tecnologías que implementamos.
  • Identificarás requerimientos y definirás el alcance, participando en sprint planning y sesiones de ingeniería con una visión de consultor que aporte valor extra.
  • Clasificarás y estimarás actividades bajo metodologías ágiles (épicas, features, historias técnicas/usuario) y darás seguimiento diario para mantener el ritmo del sprint.
  • Cumplirás las fechas de entrega comprometidas y gestionarás riesgos comunicando desviaciones a tiempo.

Requirements:

  • Experiencia en: Lenguajes de Consulta y Programación: T-SQL / Spark SQL: DDL y DML, consultas intermedias y avanzadas (subconsultas, CTEs, joins múltiples con reglas de negocio), agrupación y agregación (GROUP BY, funciones de ventana, métricas de negocio), procedimientos almacenados para ETL/ELT, optimización de índices, estadísticas y planes de ejecución para procesos masivos
  • Python (PySpark): Programación orientada a objetos (clases, módulos), gestión de estructuras y tipos de datos (variables, listas, tuplas, diccionarios), control de flujo mediante condicionales y bucles, ingestión de datos estructurados y semiestructurados, desarrollo de DataFrames y UDFs, ventanas temporales y particionado para optimización, buenas prácticas de código (PEP8, modularidad)
  • Databricks: Apache Spark & DataFrame API: Diseño de pipelines que aprovechan la API de DataFrames para transformaciones masivas; uso de funciones declarativas y expresiones vectorizadas.
  • Delta Lake: Administración de tablas Delta con ACID transactions, time travel para auditoría y partition pruning para lecturas eficientes dentro de la medallion architecture.
  • Autoloader & Data Ingestion: Configuración de ingesta incremental en OneLake o ADLS Gen2 con Auto Loader, captura de cambios de esquema (schema evolution) y checkpointing para garantizar exactly-once delivery sin código adicional.
  • Structured Streaming: Orquestación de flujos en tiempo real con triggers event-time y processing-time, watermarking y operaciones stateful para baja latencia y tolerancia a fallos.
  • Delta Live Tables (DLT): Declaración de pipelines ETL/ELT en SQL o Python con calidad de datos integrada (Expectations), manejo automático de dependencias y monitoreo continuo.
  • Performance Optimization: Técnicas de caching, broadcast joins, shuffle optimizations y uso de formatos columnar (Parquet/Delta) con Z-Ordering y OPTIMIZE para reducir tiempos de procesamiento.
  • Lakehouse Federation: Consulta unificada sobre fuentes externas a través de Unity Catalog; Jobs & Workflows: Creación de pipelines multietapa con dependencias, retries automáticos, scheduling o llegada de datos; integración con Azure Data Factory si es necesario.
  • Repos & CI/CD: Versionado de notebooks y scripts en GitHub/Azure DevOps, configuración de pipelines de validación (unitarias y de esquema) y despliegue automatizado en entornos dev-test-prod.
  • Monitoreo y Observabilidad: Alertas mediante notificaciones de jobs de Workflows ante eventos como fallos y generación de alertas proactivas automatizadas
  • Será un plus si tienes conocimientos generales en Azure Data Factory!!

Benefits:

  • WELLNESS: Impulsaremos tu bienestar integral a través del equilibrio personal, profesional y económico, Nuestros beneficios de ley y adicionales te ayudarán a lograrlo.
  • LET´S RELEASE YOUR POWER: Tendrás la oportunidad de especializarte de manera integral en diferentes áreas y tecnologías, logrando así un desarrollo interdisciplinario.
  • WE CREATE NEW THINGS: Nos gusta pensar fuera de la caja. Tendrás el espacio, confianza y libertad para crear y la capacitación que se requiera para lograrlo.
  • WE GROW TOGETHER: Participarás en proyectos tecnológicos punteros, multinacionales y con equipos extranjeros.