Avalore, LLC
Ingeniero de HPC

Annapolis Junction, MD, USA
Lo que harás
Desempeñarás un papel clave en la definición y operación de algunas de las plataformas de computación más complejas que el cliente debe implementar para abordar problemas complejos. Estos sistemas permiten análisis, simulaciones y modelados complejos aprovechando la computación altamente paralela y el almacenamiento distribuido de conjuntos de datos muy grandes, con el fin de responder preguntas difíciles. Para lograrlo, ayudarás a los usuarios a desplegar trabajos en estos sistemas para aprovechar sus capacidades, produciendo respuestas en forma de productos analíticos, modelos y simulaciones. Esta habilitación de la misión es fundamental para resolver los problemas más difíciles.
Responsable de las operaciones y mantenimiento diarios normales de los sistemas HPC
Realizarás funciones diarias de administración de sistemas para GPUs de Nvidia, sistemas de clústeres convencionales y entornos HPC Cray
Realizarás monitoreo del sistema, instalaciones de software, depuración, actualizaciones, verificaciones de estado e identificación e implementación de procesos empresariales automatizados
Proporcionarás evaluaciones, análisis continuo del rendimiento y recomendaciones para futuras arquitecturas
Responsable de operar todos los sistemas principales para el análisis
Actuarás como enlace entre los analistas y sus códigos y aplicaciones especializados, y los sistemas informáticos enfocados en generar resultados técnicos profundos y confiables
Supervisarás aplicaciones analíticas que se ejecutan en una infraestructura HPC en clúster, incluyendo sistemas de CPU y GPU
Gestionarás el envío de trabajos a aplicaciones y códigos de los clientes utilizando MPI/OpenMPI
Proporcionarás resultados analíticos detallados para lograr un enfoque de mejor herramienta para cada tarea
Trabajarás en colaboración con científicos de datos, ingenieros y analistas que realizan análisis científicos e ingenieriles especializados
Escalarás problemas e incidencias al soporte de hardware y/o a la gerencia de ingeniería según sea necesario
Responsable del análisis continuo del rendimiento y ajuste del entorno HPC
Ayudarás en la identificación, solución de problemas y reparación de problemas de software que afecten el rendimiento de las soluciones HPC implementadas
Realizarás la instalación de parches de software, incluidas actualizaciones del sistema operativo y firmware
Ayudarás en la resolución de tickets de soporte y problemas de software identificados por los usuarios del sistema
Identificarás y ampliarás los servicios y funcionalidades ofrecidos en el entorno HPC
Serás un punto de contacto principal para resolver cualquier malfuncionamiento de hardware o software, incluido el trabajo con personal de servicio cuando sea necesario
Revisarás registros del sistema para identificar y resolver problemas relacionados con software y sistemas
Prepararás informes relacionados con la eficiencia operativa del hardware y la ejecución de trabajos de los usuarios
Experiencia esencial con MPI/OpenMPI, SLURM y sistemas operativos Linux
Experiencia previa como administrador de sistemas esencial, con preferencia por experiencia trabajando con sistemas en clúster que incluyan GPUs en la pila de hardware
Se valora experiencia en redes de alta velocidad y CUDA
Experiencia en integración de software es un plus
Pueden requerirse otras funciones para apoyar la misión del cliente
Requisitos
Mínimo 6 años de experiencia laboral demostrada
Experiencia laboral demostrada en la integración de funcionalidades de sistemas diversos mediante scripting/herramientas/automatización
Experiencia laboral demostrada en el entorno y requisitos de seguridad del sistema del patrocinador
Experiencia demostrada liderando arquitectura de sistemas, operaciones, mantenimiento y administración
Habilitación de seguridad: Se requiere habilitación activa de TS/SCI con polígrafo actual apropiado para ser considerado para este puesto; capacidad de obtener derechos de acceso privilegiado.
Beneficios
Se aplican requisitos de elegibilidad.
Plan de atención médica pagado por el empleador (médico, dental y visual)
Plan de jubilación (401k, IRA) con un generoso programa de coincidencia
Seguro de vida (básico, voluntario y por accidente)
Tiempo libre remunerado (vacaciones, enfermedad y días festivos oficiales)
Discapacidad a corto y largo plazo
Capacitación y desarrollo
Programa de asistencia al empleado
Salario negociable