Salario negociable
Dstillery
New York, NY, USA
Dstillery es la principal empresa de segmentación publicitaria mediante inteligencia artificial. Empoderamos a marcas y agencias para que lleguen a sus mejores prospectos con campañas publicitarias programáticas de alto rendimiento. Respaldados por nuestra galardonada Ciencia de Datos, Dstillery ha obtenido 24 patentes (y contando) por la tecnología de IA que impulsa nuestras audiencias precisas y escalables. Nuestra tecnología más reciente, ID-free®, es una segmentación conductual patentada y segura en cuanto a privacidad, que alcanza el 100 % de las impresiones publicitarias y puede utilizarse con cualquier producto de Dstillery. Nuestro producto estrella de segmentos de usuarios, Custom AI Audiences, es una solución de segmentación exclusiva para tu marca que actualiza cientos de millones de usuarios cada 24 horas para ofrecer el mejor rendimiento. Actualmente manejamos miles de millones de eventos por día, estamos creciendo fuertemente y necesitamos a alguien que nos ayude a escalar nuestros sistemas para manejar grandes volúmenes de datos. Aún somos un equipo pequeño de ingeniería, y todos participamos activamente y generamos un impacto real. Nuestra cultura de ingeniería se centra en implementar sistemas escalables y prácticos. Utilizamos equipos pequeños y ágiles que pueden intervenir en cualquier parte del sistema. Valoramos mucho mantener un buen equilibrio entre la vida laboral y personal, evitar jornadas excesivas y centrarnos en lograr resultados en lugar de acumular largas horas de trabajo. Estamos buscando contratar a un Ingeniero de Confiabilidad de Sitio para que se una a nuestro equipo y apoye tanto nuestra infraestructura local como la de la nube. En este puesto, trabajará tanto en tareas independientes como colaborando con otros miembros del equipo de SRE en proyectos más grandes y complejos. Responsabilidades Contribuir a iniciativas alineadas con la hoja de ruta de los sistemas en un entorno de equipo colaborativo. Trabajar de forma transversal con ingenieros de software, ingenieros de aprendizaje automático (ML) y científicos de datos para construir y soportar sistemas confiables. Crear y mejorar sistemas de monitoreo y alertas para garantizar alta disponibilidad y rendimiento. Liderar la respuesta a incidentes, realizar análisis de causas raíz y promover acciones correctivas para prevenir recurrencias. Participar en sesiones de diseño, revisiones de código y compartición de conocimientos. Promover los principios y mejores prácticas de SRE, incluyendo infraestructura como código y automatización. Contribuir a la documentación de sistemas en evolución y mejorarla. Participar en turnos programados para dar soporte a los sistemas de producción durante el horario laboral. Requisitos Estamos buscando un candidato que tenga: Conocimiento de las mejores prácticas de seguridad y experiencia en la implementación de medidas de seguridad en toda la infraestructura. Experiencia en ajuste de rendimiento y optimización de sistemas para escalabilidad y eficiencia. Experiencia en el diseño e implementación de planes de recuperación ante desastres y continuidad del negocio. Excelentes habilidades de comunicación para colaborar eficazmente con equipos multifuncionales. Fuertes habilidades analíticas y de resolución de problemas para solucionar problemas complejos. Capacidad para mentorear a miembros junior del equipo y compartir conocimientos para fomentar un entorno colaborativo de aprendizaje. Y también tenga experiencia en un subconjunto significativo de las siguientes herramientas, y tenga interés en aprender el resto: Administración de sistemas Linux en distribuciones derivadas de RHEL Despliegue y monitoreo en servidores físicos, máquinas virtuales en la nube, plataformas nativas de la nube y Kubernetes. Herramientas de gestión de configuración como: Salt, Ansible Infraestructura como código, por ejemplo: Terraform Herramientas de instalación de Linux, por ejemplo: Cobbler Herramientas de creación de imágenes de máquinas virtuales, por ejemplo: Packer Redes de código abierto, por ejemplo: quagga/frr, keepalived, iptables Redes en la nube en AWS y GCP Automatización usando Python Gestión de control de versiones usando Git