📍 Ubicación: San José, Tibás (Presencial 2 meses → luego modalidad híbrida)
🕗 Horario: Lunes a viernes, 8:00 a.m. – 5:00 p.m.
📄 Tipo de contrato: Indefinido
Nivel de inglés requerido: B2+ - C1
🎯 Sobre el puesto
Buscamos un Senior Data Engineer con sólida experiencia en Apache Airflow y Databricks para construir y optimizar pipelines de datos modernos. Trabajarás con arquitecturas medallion, plataformas cloud y frameworks de streaming para potenciar flujos de datos y ML. El candidato ideal domina Spark, disfruta construir sistemas de ingestión impulsados por metadata y puede trabajar de forma autónoma en entornos dinámicos.
🛠️ Responsabilidades principales
• Diseñar, construir y mantener DAGs en Airflow para cargas batch y streaming.
• Desarrollar y optimizar pipelines en Databricks usando Auto Loader, Delta Lake y Unity Catalog.
• Implementar frameworks de ingestión basados en metadata utilizando esquemas en YAML, watermarks y PKs.
• Construir lógica de validación, deduplicación y enforcement de esquemas usando configuraciones estructuradas.
• Gestionar sincronización de tablas Delta entre nubes (Azure → AWS) con APIs de Databricks o Rclone.
• Integrar Airflow con Azure Key Vault, Databricks Jobs API y herramientas cloud nativas.
• Restaurar tablas desde el historial Delta sin checkpoints; crear utilidades de clonado y manejo de versiones.
• Automatizar trazabilidad (lineage) y análisis de impacto usando Unity Catalog e historial de consultas.
• Refactorizar notebooks a módulos Python parametrizables para mayor reutilización, pruebas y CI/CD.
• Ajustar configuraciones de Auto Loader y checkpoints de streaming para pipelines robustos y de alto rendimiento.
Requisitos clave
• 4–8 años de experiencia en ingeniería de datos con fuerte dominio de Airflow.
• Conocimiento experto en Databricks, Delta Lake y Unity Catalog.
• Experiencia práctica con Spark Structured Streaming y patrones de ingestión como Auto Loader.
• Dominio de Python, SQL y YAML para construir pipelines configurables y robustos.
• Experiencia con Azure y AWS (Blob Storage, S3, Key Vault).
• Capacidad para depurar jobs Spark, problemas de versionamiento Delta y fallas de checkpoints.
• Buenas prácticas de ingeniería: código modular, logging, pruebas unitarias, Git.
• Familiaridad con integración de Power BI mediante REST API (datasets push, sync de esquemas).
⭐ Deseable
• Experiencia con bases vectoriales, pipelines RAG o sistemas de QA con LLMs.
• Conocimiento de flujos de modelado financiero (factor models, risk analytics).
• Experiencia con CI/CD para notebooks de Databricks o workflows integrados con Git.
• Automatización de Delta syncs, reconciliación de permisos y auditorías de catálogo.
🧰 Tech Stack
Airflow, Databricks, Spark, Delta Lake, Unity Catalog, Python, SQL, YAML, Azure, AWS, Git, Power BI API.
Si te apasiona la ingeniería de datos y quieres trabajar con tecnologías de punta en un equipo innovador, ¡nos gustaría conocerte! 🚀
Estas vacantes tienen roles y ubicación similares.