Salario negociable
Dstillery
New York, NY, USA
Dstillery es la principal empresa de segmentación publicitaria mediante IA. Empoderamos a marcas y agencias para que lleguen a sus mejores prospectos con campañas publicitarias programáticas de alto rendimiento. Apoyándonos en nuestra galardonada Ciencia de Datos, Dstillery ha obtenido 24 patentes (y sigue sumando) para la tecnología de IA que impulsa nuestros públicos precisos y escalables. Nuestra tecnología más reciente, ID-free®, es una segmentación conductual patentada y segura para la privacidad que alcanza el 100 % de las impresiones publicitarias y puede utilizarse con cualquier producto de Dstillery. Nuestro producto estrella de segmentos de usuario, Custom AI Audiences, es una solución de segmentación exclusiva para tu marca que actualiza cientos de millones de usuarios cada 24 horas para ofrecer el mejor rendimiento. Actualmente procesamos miles de millones de eventos por día, seguimos creciendo fuertemente y necesitamos a alguien que nos ayude a escalar nuestros sistemas para manejar grandes volúmenes de datos. Aún somos un equipo pequeño de ingeniería, y todos participan activamente y generan un impacto real. Nuestra cultura de ingeniería se centra en implementar sistemas escalables y prácticos. Trabajamos con equipos pequeños y ágiles que pueden intervenir en cualquier parte del sistema. Valoramos mucho mantener un buen equilibrio entre la vida laboral y personal, evitar jornadas excesivas y centrarnos en lograr resultados en lugar de acumular horas de trabajo. Estamos buscando contratar a un ingeniero de confiabilidad de sitios (Site Reliability Engineer) para que se una a nuestro equipo y apoye tanto nuestra infraestructura local como la en la nube. En este puesto, trabajará tanto en tareas independientes como colaborando con otros miembros del equipo de SRE en proyectos más grandes y complejos. Responsabilidades - Contribuir a iniciativas alineadas con la hoja de ruta de los sistemas en un entorno de equipo colaborativo. - Trabajar transversalmente con ingenieros de software, ingenieros de aprendizaje automático (ML) y científicos de datos para construir y apoyar sistemas confiables. - Crear y mejorar sistemas de monitoreo y alertas para garantizar alta disponibilidad y rendimiento. - Liderar la respuesta a incidentes, realizar análisis de causas raíz y impulsar acciones correctivas para prevenir recurrencias. - Participar en sesiones de diseño, revisiones de código y compartir conocimientos. - Promover los principios y mejores prácticas de SRE, incluyendo infraestructura como código y automatización. - Contribuir a la documentación de sistemas y mejorarla conforme evolucione. - Participar en turnos programados para dar soporte a los sistemas de producción durante el horario laboral. Requisitos Estamos buscando un candidato que tenga: - Conocimiento de las mejores prácticas de seguridad y experiencia en la implementación de medidas de seguridad en toda la infraestructura. - Experiencia en ajuste de rendimiento y optimización de sistemas para escalabilidad y eficiencia. - Experiencia en el diseño e implementación de planes de recuperación ante desastres y continuidad del negocio. - Excelentes habilidades de comunicación para colaborar eficazmente con equipos multifuncionales. - Fuertes habilidades analíticas y de resolución de problemas para solucionar incidencias complejas. - Capacidad para orientar a miembros más jóvenes del equipo y compartir conocimientos, fomentando un entorno colaborativo de aprendizaje. Además, debe tener experiencia en un subconjunto significativo de las siguientes herramientas, y estar interesado en aprender el resto: - Administración de sistemas Linux en distribuciones basadas en RHEL. - Despliegue y monitoreo en hardware dedicado, máquinas virtuales en la nube, plataformas nativas de nube y Kubernetes. - Herramientas de gestión de configuración como: Salt, Ansible. - Infraestructura como código, por ejemplo: Terraform. - Herramientas de instalación de Linux, por ejemplo: Cobbler. - Herramientas para la creación de imágenes de máquinas virtuales, por ejemplo: Packer. - Redes de código abierto, por ejemplo: quagga/frr, keepalived, iptables. - Redes en la nube en AWS y GCP. - Automatización usando Python. - Gestión de control de versiones usando Git.