Salario negociable
Qode
Ohio, USA
Resumen del trabajo Estamos buscando un Ingeniero de Datos AWS experimentado con sólidos conocimientos en Python y PySpark para diseñar, construir y mantener tuberías de datos a gran escala y plataformas de datos basadas en la nube. El candidato ideal tendrá experiencia práctica con los servicios de AWS, procesamiento distribuido de datos e implementación de soluciones escalables para casos de uso de análisis y aprendizaje automático. Responsabilidades principales · Diseñar, desarrollar y optimizar tuberías de datos utilizando Python, PySpark y SQL. · Crear y gestionar flujos de trabajo ETL/ELT para datos estructurados y no estructurados. · Aprovechar los servicios de AWS (S3, Glue, EMR, Redshift, Lambda, Athena, Kinesis, Step Functions, RDS) para soluciones de ingeniería de datos. · Implementar arquitecturas de lago de datos/almacén de datos y garantizar la calidad, consistencia y seguridad de los datos. · Trabajar con sistemas distribuidos a gran escala para el procesamiento de datos en tiempo real y por lotes. · Colaborar con científicos de datos, analistas y partes interesadas comerciales para ofrecer soluciones de datos confiables y de alta calidad. · Desarrollar y aplicar prácticas de gobernanza de datos, monitoreo y mejores prácticas para la optimización del rendimiento. · Implementar y gestionar tuberías CI/CD para flujos de trabajo de datos utilizando herramientas de AWS (CodePipeline, CodeBuild) o GitHub Actions. Habilidades y calificaciones requeridas · Sólidas habilidades de programación en Python y experiencia práctica con PySpark. · Dominio de SQL para consultas complejas, transformaciones y ajuste de rendimiento. · Experiencia sólida con el ecosistema en la nube de AWS (S3, Glue, EMR, Redshift, Athena, Lambda, etc.). · Experiencia trabajando con lagos de datos, almacenes de datos y sistemas distribuidos. · Conocimiento de marcos ETL, orquestación de flujos de trabajo (Airflow, Step Functions o similares) y automatización. · Familiaridad con Docker, Kubernetes o despliegues contenerizados. · Amplia comprensión de modelado de datos, particionamiento y técnicas de optimización. · Excelentes habilidades para resolver problemas, depuración y comunicación.