Salario negociable
Qode
Pennsylvania, USA
Título del puesto: Ingeniero Senior/Principal de Datos Ubicación: Pittsburgh, PA / Dallas, TX / Cleveland, OH Cliente: PNC Bank Descripción del trabajo: PNC Bank busca un Ingeniero Senior/Principal de Datos altamente calificado para unirse a su equipo de Datos y Analítica. El candidato ideal tendrá una sólida experiencia en la creación y optimización de tuberías de datos escalables utilizando Hadoop y PySpark, con un enfoque en facilitar la toma de decisiones basada en datos en toda la empresa. Este puesto requiere liderazgo técnico práctico, amplios conocimientos de tecnologías de big data y la capacidad de colaborar con equipos multifuncionales. Principales responsabilidades: Diseñar, construir y optimizar tuberías de datos a gran escala para datos estructurados y no estructurados. Desarrollar y mantener flujos de trabajo de ingesta, transformación e integración de datos utilizando PySpark, Hadoop (HDFS, Hive, HBase) y herramientas relacionadas del ecosistema. Implementar las mejores prácticas en modelado de datos, ajuste de rendimiento y optimización de tuberías. Colaborar con científicos de datos, analistas y partes interesadas del negocio para ofrecer soluciones de datos confiables y escalables. Garantizar la calidad, seguridad y gobernanza de los datos en todas las plataformas de datos. Brindar liderazgo técnico y mentoría a ingenieros de datos junior. Colaborar con equipos de nube para integrar cargas de trabajo de Hadoop/PySpark con plataformas en la nube (AWS/Azure/GCP). Solucionar problemas, monitorear y optimizar flujos de trabajo ETL para alta disponibilidad y rendimiento. Impulsar la innovación mediante la evaluación y recomendación de tecnologías emergentes en el ecosistema de big data. Habilidades y calificaciones requeridas: Más de 10 años de experiencia en Ingeniería de Datos, con al menos 5 años en Hadoop y PySpark. Amplia experiencia en el ecosistema de Hadoop (HDFS, Hive, HBase, Oozie, Sqoop, Kafka, etc.). Dominio de PySpark, Python y SQL para transformación y análisis de datos. Experiencia práctica en procesos ETL/ELT, modelado de datos y ajuste de rendimiento. Conocimiento de las mejores prácticas en gobernanza de datos, trazabilidad y seguridad. Experiencia integrando Hadoop con plataformas en la nube (AWS EMR, Azure Databricks, GCP Dataproc, etc.). Sólido entendimiento de computación distribuida, procesamiento paralelo y arquitectura de big data. Excelentes habilidades de resolución de problemas, comunicación y liderazgo. Calificaciones preferidas: Experiencia en el sector bancario o servicios financieros. Conocimiento de tecnologías de transmisión (Kafka, Spark Streaming, Flink). Familiaridad con DevOps, pipelines CI/CD y contenerización (Docker/Kubernetes). Conocimientos de Snowflake u otros almacenes de datos modernos son un plus.