Sr Data Engineer

  • LinkAmerica
  • Costa Rica
Descripción

📍 Ubicación: San José, Tibás (Presencial 2 meses → luego modalidad híbrida)

🕗 Horario: Lunes a viernes, 8:00 a.m. – 5:00 p.m.

📄 Tipo de contrato: Indefinido

Nivel de inglés requerido: B2+ - C1

🎯 Sobre el puesto

Buscamos un Senior Data Engineer con sólida experiencia en Apache Airflow y Databricks para construir y optimizar pipelines de datos modernos. Trabajarás con arquitecturas medallion, plataformas cloud y frameworks de streaming para potenciar flujos de datos y ML. El candidato ideal domina Spark, disfruta construir sistemas de ingestión impulsados por metadata y puede trabajar de forma autónoma en entornos dinámicos.

🛠️ Responsabilidades principales

• Diseñar, construir y mantener DAGs en Airflow para cargas batch y streaming.

• Desarrollar y optimizar pipelines en Databricks usando Auto Loader, Delta Lake y Unity Catalog.

• Implementar frameworks de ingestión basados en metadata utilizando esquemas en YAML, watermarks y PKs.

• Construir lógica de validación, deduplicación y enforcement de esquemas usando configuraciones estructuradas.

• Gestionar sincronización de tablas Delta entre nubes (Azure → AWS) con APIs de Databricks o Rclone.

• Integrar Airflow con Azure Key Vault, Databricks Jobs API y herramientas cloud nativas.

• Restaurar tablas desde el historial Delta sin checkpoints; crear utilidades de clonado y manejo de versiones.

• Automatizar trazabilidad (lineage) y análisis de impacto usando Unity Catalog e historial de consultas.

• Refactorizar notebooks a módulos Python parametrizables para mayor reutilización, pruebas y CI/CD.

• Ajustar configuraciones de Auto Loader y checkpoints de streaming para pipelines robustos y de alto rendimiento.

Requisitos clave

• 4–8 años de experiencia en ingeniería de datos con fuerte dominio de Airflow.

• Conocimiento experto en Databricks, Delta Lake y Unity Catalog.

• Experiencia práctica con Spark Structured Streaming y patrones de ingestión como Auto Loader.

• Dominio de Python, SQL y YAML para construir pipelines configurables y robustos.

• Experiencia con Azure y AWS (Blob Storage, S3, Key Vault).

• Capacidad para depurar jobs Spark, problemas de versionamiento Delta y fallas de checkpoints.

• Buenas prácticas de ingeniería: código modular, logging, pruebas unitarias, Git.

• Familiaridad con integración de Power BI mediante REST API (datasets push, sync de esquemas).

Deseable

• Experiencia con bases vectoriales, pipelines RAG o sistemas de QA con LLMs.

• Conocimiento de flujos de modelado financiero (factor models, risk analytics).

• Experiencia con CI/CD para notebooks de Databricks o workflows integrados con Git.

• Automatización de Delta syncs, reconciliación de permisos y auditorías de catálogo.

🧰 Tech Stack

Airflow, Databricks, Spark, Delta Lake, Unity Catalog, Python, SQL, YAML, Azure, AWS, Git, Power BI API.

Si te apasiona la ingeniería de datos y quieres trabajar con tecnologías de punta en un equipo innovador, ¡nos gustaría conocerte! 🚀

Otras Vacantes

Estas vacantes tienen roles y ubicación similares.

LinkAmerica
Sr Data Engineer

  • 26 nov
  • Tiempo Completo
  • Ingeniero de Datos
  • Híbrido 🇨🇷
Gestión Humana
Arquitecto de Datos

  • 16 sept
  • Tiempo Completo
  • Ingeniero de Datos
  • Remoto 🇨🇷